图像标注

图像标注(Image Captioning)是计算机根据图像自动生成相对应的描述文字,是自然语言处理与计算机视觉领域的结合。由于这项工作同时涉及到图像理解和语言生成,在深度学习到来以前是很难完成的复杂任务。在深度学习到来后,凭借 CNN(卷积神经网络)和 RNN(循环神经网络)强大的特征分析能力,我们可以通过 CNN 将图片编码为一个特征向量,再利用 RNN 的语言模型将其解码为句子。这种解决问题的方式,是从机器翻译演变而来的。在机器翻译中,我们用 RNN 把源句子编码为一个向量,现在我们把 RNN 替换为 CNN,把源句子替换为源图像,即转化到了图像标注的问题上。随着研究的深入,在这一个问题上,也有了更多样化的解决思路,比如引入 GAN(对抗生成网络)和强化学习来提高语言的生成质量。

简介

图像标注(Image Captioning)是计算机根据图像自动生成相对应的描述文字,是自然语言处理与计算机视觉领域的结合。

由于这项工作同时涉及到图像理解和语言生成,在深度学习到来以前是很难完成的复杂任务。在深度学习到来后,凭借CNN(卷积神经网络)和RNN(循环神经网络)强大的特征分析能力,我们可以通过CNN将图片编码为一个特征向量,再利用RNN的语言模型将其解码为句子。这种解决问题的方式,是从机器翻译演变而来的。在机器翻译中,我们用RNN把源句子编码为一个向量,现在我们把RNN替换为CNN,把源句子替换为源图像,即转化到了图像标注的问题上。随着研究的深入,在这一个问题上,也有了更多样化的解决思路,比如引入GAN(对抗生成网络)和强化学习来提高语言的生成质量。

(图片来源: http://kelvinxu.github.io/projects/capgen.html)

由于这项研究潜在的商业价值(比如图像搜索),近年来收到了工业界和学术界的重大关注。值得注意的是,在这个研究方向上还存在一个反向问题,比如根据描述文字来生成相对应的图像,解决的思路也是类似的。

来源

Google Research Blog: https://research.googleblog.com/2016/09

Andrej Karpathy: http://cs.stanford.edu/people/karpathy/deepimagesent/

发展历史

在早期研究 Image Captioning 时,学界主要依靠手工提取的图像特征去匹配关键字。在深度学习到来以后,人们开始尝试利用 CNN 强大的图像特征提取能力来解决这一问题,不过思路仍然局限在匹配关键字,难以产生连续的语言描述。

直到2014年,Google Brain团队提出了用Seq2Seq框架来解决这项问题。Seq2Seq原本被应用在翻译系统上并取得了巨大的成功,而Google Brain团队把原本对句子的编码器从RNN转为CNN从而对图像编码,自然形成了一个从图像映射到句子的模型。凭借这个模型,Google Brain在多个公开数据集上取得了历史最佳成绩。后面的学术研究也都按照Seq2Seq的思路来进行。

2015年,在Seq2Seq框架的基础上,蒙特利尔大学的知名学者Youshua Bengio进一步引入了注意力机制(attention),使得解码器在生成语言的时候,能聚焦到原图像上某一块区域的重点,从而产生更准确的结果。凭借这一机制,历史最佳成绩再次被刷新,而注意力机制(attention)也被广泛沿用并继续被深入开发。

2016年,Google Brain宣布开源其基于TensorFlow的Image Captioning系统im2txt,标志着Image Captioning这项技术已经步入了比较成熟、可以工程化的阶段。不过随着技术的进步,越来越多的学者不再满足于Seq2Seq框架,开始将目光投向了强化学习和GAN(对抗生成网络)。

2017年,由 Snap 公司和斯坦福大学联合发表的论文提出了一种新的解决思路,不再沿用 Seq2Seq 的框架,而是将这个问题转化为一个强化学习下的句子决策问题,其中策略网络(policy network)用来判断在现有状态下预测下一单词的置信度,价值网络(value network)用来搜索现有状态下所有可能的延伸状态,从而产生更逼真的句子。

主要事件

年份

事件

相关论文

2014

Google Brain 团队发表论文,受到翻译系统上 Seq2Seq 框架的启发,将原本的 RNN 编码器,改为了 CNN 对图像编码,从而把 Seq2seq 框架用在了图像标注上,在多个公开数据集上取得了历史最佳成绩

Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and tell: A neural image caption generator. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3156-3164).

2015

在Google Brain工作的基础上,蒙特利尔大学的Yoshua Bengio对模型加入了attention(注意力机制),使解码器在生成语言的时候,能聚焦到图像上某一块区域的重点,这种机制的加入使得该模型的能力更加强大,在Flickr8k, Flickr30k和MS COCO上取得了历史最佳成绩

Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., ... & Bengio, Y. (2015, June). Show, attend and tell: Neural image caption generation with visual attention. In International Conference on Machine Learning (pp. 2048-2057).

2017

Snap公司和斯坦福大学联合发表的论文,打破了传统的seq2seq框架,把这个问题转化为了一个强化学习的问题,试图从制定决策的角度来处理这个问题

Ren, Z., Wang, X., Zhang, N., Lv, X., & Li, L. J. (2017). Deep Reinforcement Learning-based Image Captioning with Embedding Reward. arXiv preprint arXiv:1704.03899.

发展分析

瓶颈

由于现代的 Image Captioning 基于深度学习系统,所以也会面临着深度学习本身固有的瓶颈,比如:

  • 需要大量已标注的样本来训练出一个较优秀的系统,耗时和耗资源较大
  • Neural Network是类似黑盒的模型,因此无法提供明确的模型解释(比如为什么根据这些像素输出这样的文字,机器是如何思考与决策的)
  • 移植性较差,难以把一个成功解决的问题,转化到其他领域的问题上

未来发展方向

  • 半监督学习(仅使用小部分已标注的数据和大量未标注的数据来训练模型)
  • 生成更高质量的文本,从生成“正确的句子”走向生成“更逼真的句子”
  • 生成文本的多样性和新颖性还有提升空间
  • 迁移学习,比如从图像转为文字的训练结果,能否应用在文字转为图像,或者是其他任务上

Contributor: Zhedong Zheng

相关人物
Andrey Karpathy
Andrey Karpathy
李飞飞
李飞飞
李飞飞,斯坦福大学计算机科学系教授,斯坦福视觉实验室负责人,斯坦福大学人工智能实验室(SAIL)前负责人。专业领域是计算机视觉和认知神经科学。2016年11月李飞飞加入谷歌,担任谷歌云AI/ML首席科学家。2018年9月,返回斯坦福任教,现为谷歌云AI/ML顾问。10月20日斯坦福大学「以人为中心的AI计划」开启,李飞飞担任联合负责人。11月20日李飞飞不再担任SAIL负责人,Christopher Manning接任该职位。
简介
相关人物