阿里 AI LAB ICCV 2017 录用论文详解:语言卷积神经网络应用于图像标题生成的经验学习

ICCV,被誉为计算机视觉领域三大顶级会议之一的、作为计算机视觉领域最高级别的会议之一,其论文集代表了计算机视觉领域最新的发展方向和水平。阿里巴巴在 ICCV 2017 上有多篇论文入选。本文是阿里 AI LAB 首席科学家王刚与南洋理工大学团队合作的 ICCV 2017 论文《语言卷积神经网络应用于图像标题生成的经验学习》《An Empirical Study of Language CNN for Image Captioning》解读。


论文简介:我们提出了基于卷积网络 CNN 的语言模型,该 CNN 的输入为之前时刻的所有单词,进而可以抓住对生成描述很重要的历史信息,用于指导当前时刻单词的生成。目前,语音建模大多采用 LSTM,虽然通过引入「门机制」获得长距离依存性建模的能力。但是 LSTM 通过逐个单词递推的方式来对语音建模,无论序列长度如何,信息均通过固定长度的向量传递。在输入很长序列,这种逐个递推的方式型很难去学到合理的表达。因此,我们提出的模型贡献在于通过 CNN 对历史单词进行建模,并结合简单递归模型,解决了长文本层次结构和依存性建模的问题。MS COCO 和 Flickr 30K 上,该模型性能显著地超过了 LSTM 和 GRU,均取得了 state-of-the-art 效果。

图像描述的发展

图像描述自动生成是一个融合计算机视觉、自然语言处理和机器学习的综合问题,它类似于翻译一副图片为一段描述文字。该任务不仅需要利用模型去理解图片的内容并且还需要用自然语言去表达它们之间的关系。经过持续数十年计算机视觉、图像识别、自然语言处理和机器学习等领域的发展, 让我们有可能利用神经网络完成突破性的工作。

例如, 近年来,ImageNet 的兴起, 以及大规模图像描述数据库的出现 (MS COCO, AI Challenger 中文图像), 让研究者们有机会完成更多有实际价值的应用。举个离实际应用比较近的例子, 通过摄像头获取图像或视频,结合图像描述以 (Image-to-Text) 及语音生成技术 (Text-to-Speech),视障人士可以获得对眼前事物的准确描述。此外,还可能自动对数以千万的未标注图像生成描述以便分类检索。

基于 encoder-decoder 结构的图像描述存在不足

目前,主流的图像描述模型都是基于 encoder-decoder 结构。其中,encoder 为卷积神经网络,同于图像特征抽取。decoder 一般为递归神经网络,用于语言模型建模。递归神经网络虽然相对传统方法效果显著。但是,所有递推网络都避免不了一个潜在的问题,那就是当输入序列很长时,历史信息不可避免的会损失。也就是说,虽然门机制一定程度上解决了梯度消失的问题。但是,也带来了缺点。尤其输入序列很长时,由于门机制的存在,递归神经网络难以保留全部的必要信息。

基于卷积网络 CNN 的语言模型 超越目前所有方法

我们提出的基于卷积网络 CNN 的语言模型则解决了传统 encode-decode 结构在编解码时都依赖于内部一个固定长度向量的限制。该模型主要由四部分组成:用于图像特征提取的 CNN_I,用于自然语言建模的 CNN_L,融合视觉和文本特征的的多模态层 M,以及单词预测的递归网络。

描述生成过程过程如下:首先利用 CNN 提取图像特征,然后 CNN_L 对历史预测的所有单词进行建模,并得到整体表达。然后,通过多模态层对图像和语音信息进行融合,并将融合的信息输入递归网络预测下一个单词。


和传统递归神经网络相比,我们的建立了一个输入句子的层级表征,这样可以更好地提取长距离的依存性(long-term dependencies)。这种层次理解的思路和和语言学中语法形式体系中的树结构分析很像。总的来说,我们的模型利用了 language CNN 天然的整体性理解能力,并结合递归网络的串行理解能力。既获得了长历史信息建模(long-term)的能力,有不丢失时序建模(Short-Term)网络来表达单词信息,进而能够很好的对历史信息建模,用于当前单词的预测。


从我们在 MS COCO 的对比分析看出, 我们的模型很明显的超过了所有的递推神经网络, 而且由于引入了 language CNN, 我们的网络比 LSTM 网络更容易训练, 在 Flick30K 上, 我们超越了目前所有的方法。


论文下载链接:

http://openaccess.thecvf.com/content_iccv_2017/html/Gu_An_Empirical_Study_ICCV_2017_paper.html

理论理论论文ICCV 2017ICCV阿里巴巴卷积神经网络字幕生成
1