图像标注 | 机器之心

简介

图像标注（Image Captioning）是计算机根据图像自动生成相对应的描述文字，是自然语言处理与计算机视觉领域的结合。

由于这项工作同时涉及到图像理解和语言生成，在深度学习到来以前是很难完成的复杂任务。在深度学习到来后，凭借CNN（卷积神经网络）和RNN（循环神经网络）强大的特征分析能力，我们可以通过CNN将图片编码为一个特征向量，再利用RNN的语言模型将其解码为句子。这种解决问题的方式，是从机器翻译演变而来的。在机器翻译中，我们用RNN把源句子编码为一个向量，现在我们把RNN替换为CNN，把源句子替换为源图像，即转化到了图像标注的问题上。随着研究的深入，在这一个问题上，也有了更多样化的解决思路，比如引入GAN（对抗生成网络）和强化学习来提高语言的生成质量。

(图片来源: http://kelvinxu.github.io/projects/capgen.html)

由于这项研究潜在的商业价值（比如图像搜索），近年来收到了工业界和学术界的重大关注。值得注意的是，在这个研究方向上还存在一个反向问题，比如根据描述文字来生成相对应的图像，解决的思路也是类似的。

来源：

Google Research Blog: https://research.googleblog.com/2016/09

Andrej Karpathy: http://cs.stanford.edu/people/karpathy/deepimagesent/

发展历史

在早期研究 Image Captioning 时，学界主要依靠手工提取的图像特征去匹配关键字。在深度学习到来以后，人们开始尝试利用 CNN 强大的图像特征提取能力来解决这一问题，不过思路仍然局限在匹配关键字，难以产生连续的语言描述。

直到2014年，Google Brain团队提出了用Seq2Seq框架来解决这项问题。Seq2Seq原本被应用在翻译系统上并取得了巨大的成功，而Google Brain团队把原本对句子的编码器从RNN转为CNN从而对图像编码，自然形成了一个从图像映射到句子的模型。凭借这个模型，Google Brain在多个公开数据集上取得了历史最佳成绩。后面的学术研究也都按照Seq2Seq的思路来进行。

2015年，在Seq2Seq框架的基础上，蒙特利尔大学的知名学者Youshua Bengio进一步引入了注意力机制（attention），使得解码器在生成语言的时候，能聚焦到原图像上某一块区域的重点，从而产生更准确的结果。凭借这一机制，历史最佳成绩再次被刷新，而注意力机制（attention）也被广泛沿用并继续被深入开发。

2016年，Google Brain宣布开源其基于TensorFlow的Image Captioning系统im2txt，标志着Image Captioning这项技术已经步入了比较成熟、可以工程化的阶段。不过随着技术的进步，越来越多的学者不再满足于Seq2Seq框架，开始将目光投向了强化学习和GAN（对抗生成网络）。

2017年，由 Snap 公司和斯坦福大学联合发表的论文提出了一种新的解决思路，不再沿用 Seq2Seq 的框架，而是将这个问题转化为一个强化学习下的句子决策问题，其中策略网络（policy network）用来判断在现有状态下预测下一单词的置信度，价值网络（value network）用来搜索现有状态下所有可能的延伸状态，从而产生更逼真的句子。

主要事件

年份	事件	相关论文
2014	Google Brain 团队发表论文，受到翻译系统上 Seq2Seq 框架的启发，将原本的 RNN 编码器，改为了 CNN 对图像编码，从而把 Seq2seq 框架用在了图像标注上，在多个公开数据集上取得了历史最佳成绩	Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and tell: A neural image caption generator. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3156-3164).
2015	在Google Brain工作的基础上，蒙特利尔大学的Yoshua Bengio对模型加入了attention（注意力机制），使解码器在生成语言的时候，能聚焦到图像上某一块区域的重点，这种机制的加入使得该模型的能力更加强大，在Flickr8k, Flickr30k和MS COCO上取得了历史最佳成绩	Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., ... & Bengio, Y. (2015, June). Show, attend and tell: Neural image caption generation with visual attention. In International Conference on Machine Learning (pp. 2048-2057).
2017	Snap公司和斯坦福大学联合发表的论文，打破了传统的seq2seq框架，把这个问题转化为了一个强化学习的问题，试图从制定决策的角度来处理这个问题	Ren, Z., Wang, X., Zhang, N., Lv, X., & Li, L. J. (2017). Deep Reinforcement Learning-based Image Captioning with Embedding Reward. arXiv preprint arXiv:1704.03899.

发展分析

瓶颈

由于现代的 Image Captioning 基于深度学习系统，所以也会面临着深度学习本身固有的瓶颈，比如：

需要大量已标注的样本来训练出一个较优秀的系统，耗时和耗资源较大
Neural Network是类似黑盒的模型，因此无法提供明确的模型解释（比如为什么根据这些像素输出这样的文字，机器是如何思考与决策的）
移植性较差，难以把一个成功解决的问题，转化到其他领域的问题上

未来发展方向

半监督学习(仅使用小部分已标注的数据和大量未标注的数据来训练模型)
生成更高质量的文本，从生成“正确的句子”走向生成“更逼真的句子”
生成文本的多样性和新颖性还有提升空间
迁移学习，比如从图像转为文字的训练结果，能否应用在文字转为图像，或者是其他任务上

Contributor: Zhedong Zheng

简介