AAAI 2020 | 北理工&阿里文娱:结合常识与推理,更好地理解视频并生成描述

人工智能顶级会议 AAAI 2020 将于 2 月 7 日-2 月 12 日在美国纽约举办,不久之前,AAAI 2020 公布论文介绍结果:今年最终收到 8800 篇提交论文,评审了 7737 篇,接收 1591 篇,接收率 20.6%。本文对北京理工大学、阿里文娱摩酷实验室合作的论文《Joint Commonsense and Relation Reasoning for Image and Video Captioning》进行解读。

论文链接:https://wuxinxiao.github.io/assets/papers/2020/C-R_reasoning.pdf

在此论文中,作者们提出了一种联合常识和关系推理的图像视频文本描述生成方法。该方法通过迭代学习算法实现,交替执行以下两种推理方式:(1) 常识推理,将视觉区域根据常识推理,嵌入到语义空间中从而构成语义图;(2) 关系推理,将语义图通过图神经网络编码,生成图像视频文字描述。

一、研究动机

图像视频的文字描述本质上是视觉到语言 (Vision-to-Language,即 V2L) 的问题。作为视觉理解 (Visual Understanding) 的一个研究方向,连接着视觉与语言,模型需要在理解图像视频的基础上给出描述视觉内容的自然语言语句。该任务在人机交互或者素材检索中有着重要的应用前景。比如在图 1(a) 中,老师要求幼儿园或者低年级的小朋友们看图说故事,具备图像视频的文字描述技术的机器可以辅助教学,与小朋友形成互动。在图 1(b) 中,一个视频网站的编辑运营人员试图搜索「易烊千玺跳舞」或者「在海边散步的恋人」的视频片段。

图 1(a)

图 1(b)

推理视觉关系有助于提高图像视频文字描述模型的性能。现有方法 [1-3] 通常使用预训练的物体或关系检测器来提取场景图,再推理图中各物体之间的关系。该类模型依赖鲁棒的物体或关系检测器,遇到遮挡、小物体等情况会导致检测结果不准确,进而影响文字描述的生成。在现实生活中,人们可以通过常识(先验知识)来联想推理一些不易识别或不可见的事物。如图 2 所示,人们通常会用「Several people waiting at a race holding umbrellas(一些打着雨伞的人在等一场比赛)」来描述图中内容,但实际上并不能从图像中直接观测到「race(比赛)」这个语义。然而可以通过观测到的「人群围在马路两旁」来推断出这是一场比赛。而这个推断的依据就是「人群围观」和「比赛」之间的关联常识。受此启发,本文作者提出利用常识引导推断图像视频中的语义关系,进而生成文字语句的描述方法。该方法联合关系与常识推理,不依赖任何物体或关系检测器,并且在训练时也不需要场景图的标注,这样的好处是:(1) 通过额外知识的引导,探索获得难以从视觉信息中学到的物体或关系;(2) 通过端到端的学习,可以保持图像视频和文字描述的语义一致性。

图 2 基于常识推理的图像视频文字描述生成示例图

二、方法

本文提出的联合推理方法,结合以下两种推理方式:(1) 常识推理,将图像视频区域根据常识推理,嵌入到语义空间中从而构成语义图;(2) 关系推理,将语义图通过图神经网络(graph convolutional network, GCN)编码,生成图像视频的文字描述。如图 3 所示,该方法包含三个模块:视觉映射与知识映射常识推理、关系推理。在视觉映射与知识映射模块中,首先稠密采样图像或视频的局部区域,将这些区域根据表观特征聚类得到候选语义(即物体、属性和关系)。然后分别使用视觉映射与知识映射学习候选语义的视觉特征向量和知识向量。在常识推理模块中,根据知识图谱来挑选候选语义组成语义图。在关系推理模块中,使用图卷积网络和基于序列的语言模型将给定的语义图经过关系推理得到图像或视频的文字描述。

图 3 联合常识和关系推理方法示意图

2.1 视觉映射与知识映射

视觉映射是提取图像或视频的局部特征。首先稠密采样每个图像(视频)的 2D 图像块(3D 视频块),然后使用预训练的 CNN 提取特征,最后将这些特征聚类,用聚类中心表示候选语义的视觉特征向量。

知识映射是将图像(视频)的候选语义映射到知识空间上。首先,将每个图像(视频)的视觉特征通过多头注意力机制(multi-head attention mechanism)映射到语义概念空间(每个图像视频的真值语义是直接由其真值句子通过词类标注工具自动得到),得到语义概念;然后学习这些语义概念的知识嵌入(knowledge embedding);最后将知识嵌入向量作为基,语义概念的概率作为权重系数,加权相加后得到图像(视频)候选语义的知识向量。

2.2 联合常识和关系推理

给定图像(视频)候选语义的视觉特征向量和知识向量,迭代执行常识和关系推理训练视频(图像)文字描述模型,如图 4 所示。

图 4 迭代执行常识和关系推理示意图

具体地,常识推理包含语义映射(semantic mapping)和准则(criterion)模块,语义映射将图像视频的视觉特征和知识向量表达为语义特征,而常识推理的准则根据 [4] 设置为:

其中 s^h,s^r 和 s^t 分别为头实体(物体语义),关系(关系语义)和尾实体(物体或属性语义)的语义特征,W 为权重矩阵,Re(·) 和 Im(·) 分别表示取实部和虚部。根据该准则来选取三元组构成图像(视频)的语义图。

关系推理由 GCN+LSTM 模块实现,使用 [5] 提出的 GCN 得到关系敏感(relation-aware)的三元组特征,将三元组的语义特征级联,输入到 top-down attention LSTM [6] 中得到文字描述。

通过过端到端的方式联合训练本文模型,设置目标函数

其中,交叉熵损失,用于学习生成句子;

,指导学习三元组的语义特征,由常识推理中的准则来度量。

由于使用常识推理准则来构建语义图是一个「硬分配」任务,直接反向求导优化效果不佳。本文提出迭代推理算法,交替执行基于常识推理的语义图生成以及利用常识和关系推理的文字描述生成来优化模型,从而使模型的端到端训练更加稳定,如算法 1 所示。

算法 1

三、实验

在 MSVD 视频数据集和 MSCOCO 图像数据集上进行了实验。结果如表 1 和表 2 所示。在 MSVD 数据集上的结果表明,即便与使用了检测器的方法比较,本文方法的性能也十分优越。在 MSCOCO 数据集上,由于检测器在 MSCOCO 目标检测集上预训练,所以检测结果比较准确。为了公平起见,本文加入了直接使用检测器提取局部图像块的实验,结果明显高于所有 state-of-the-art 方法。

表 1 MSVD 数据集上各方法的对比结果

表 2 MSCOCO 数据集上各方法的对比结果

本文还在 MSVD 数据集上进行了消融实验,结果如表 3 所示。其中「Anderson et al. (2019)」是 baseline 方法,相当于本文方法去掉了常识和关系推理;「Ours w/o CR」方法直接使用预训练检测器,来代替常识推理生成语义图;「Ours w/o RR」方法是去掉了关系推理,即 GCN。实验结果表明了本方法各个模块的有效性,值得注意的是,「Ours w/o CR」方法的性能甚至低于「Anderson et al. (2019)」,可见在视频上使在图像域预训练的检测器得到的语义图直接进行关系推理会导致性能下降。

表 3 MSVD 数据集上消融实验的结果

本文还展示了 MSVD 数据集和 Youku-VC 视频中文描述数据集的定性实验结果,如图 5 所,其中「o-r-o」和「o-r-a」分别表示语义图中的「物体-关系-物体」和「物体-关系-属性」。由图可见,本文方法可以推断识别出一些不易检测(遮挡,小尺寸)的物体,如图 (b) 中的「makeup」,(d) 中的「woman」,和 (f) 中的「话筒」。

图 5 MSVD 和 Youku-VC 数据集上的定性实验结果

四、总结

本文提出了一种联合常识和关系推理的方法用于图像视频的文字描述生成。该方法利用先验知识交替迭代执行常识推理和关系推理,生成语义图来学习物体之间的语义关系,从而准确描述图像视频的内容。在图像和视频数据集上的实验表明,该方法优于其他最新方法。

参考文献

[1]Li, X.; and Jiang, S. Know more say less: Image captioning based on scene graphs. IEEE TMM, 2019.

[2]Yao, T.; Pan, Y.; Li, Y.; and Mei, T. Exploring visual relationship for image captioning. ECCV, 2018.

[3]Yang, X.; Tang, K.; Zhang, H,; and Cai, J. Auto-encoding scene graphs for image captioning. CVPR, 2019.

[4]Trouillon, T.; Welbl, J.; Riedel, S.; Gaussier, É.; and Bouchard, G. Complex embeddings for simple link prediction. In ICML, 2018.

[5]Johnson, J.; Gupta, A.; and Fei-Fei, L. Image generation from scene graphs. CVPR, 2018.

[6]Anderson, P.; He, X.; Buehler, C.; Teney, D.; Johnson, M.; Gould, S.; and Zhang, L. Bottom-up and top-down attention for image captioning and visual question answering. In CVPR, 2019.

理论北京理工大学阿里文娱AAAI 2020文本生成字幕生成优酷
1
相关数据
权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

图搜索技术

在计算机科学中,图遍历(也称为图搜索)是指在图中访问(检查/或更新)每个顶点的过程。这样的遍历是按访问顶点的顺序进行分类的。比如,树遍历就是图遍历的一个特例。 与树遍历不同,图遍历可能需要多次访问某些顶点,因为在转换到一个已经被探索的顶点之前,它并不一定是已知的。随着图形变得越来越密集,这种冗余变得更加普遍,导致计算时间增加;随着图形变得越来越稀疏,相反的情况也成立。 因此,通常需要记住哪些顶点已经被算法探索过了,这样就可以尽可能少地重新访问顶点(或者在最坏的情况下,防止遍历无限延续)。这可以通过将图中的每个顶点与在遍历期间的“颜色”或“访问”状态相关联来完成,然后在算法访问每个顶点时检查和更新。如果顶点已经被访问过,它就被忽略了,路径就不再被继续了;否则,算法会检查/更新顶点,并继续它当前的路径。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

联想机构

联想集团是1984年中国科学院计算技术研究所投资20万元人民币,由11名科技人员创办,是中国的一家在信息产业内多元化发展的大型企业集团,和富有创新性的国际化的科技公司。 从1996年开始,联想电脑销量一直位居中国国内市场首位;2005年,联想集团收购IBM PC(Personal computer,个人电脑)事业部;2013年,联想电脑销售量升居世界第一,成为全球最大的PC生产厂商。2014年10月,联想集团宣布了该公司已经完成对摩托罗拉移动的收购。 作为全球电脑市场的领导企业,联想从事开发、制造并销售可靠的、安全易用的技术产品及优质专业的服务,帮助全球客户和合作伙伴取得成功。联想公司主要生产台式电脑、服务器、笔记本电脑、智能电视、打印机、掌上电脑、主板、手机、一体机电脑等商品。 自2014年4月1日起, 联想集团成立了四个新的、相对独立的业务集团,分别是PC业务集团、移动业务集团、企业级业务集团、云服务业务集团。2016年8月,全国工商联发布“2016中国民营企业500强”榜单,联想名列第四。 2018年12月,世界品牌实验室编制的《2018世界品牌500强》揭晓,排名第102。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

图卷积网络技术

假设有一张图,要做分类,传统方法需要手动提取一些特征,比如纹理啊,颜色啊,或者一些更高级的特征。然后再把这些特征放到像随机森林等分类器,给到一个输出标签,告诉它是哪个类别。而深度学习是输入一张图,经过神经网络,直接输出一个标签。特征提取和分类一步到位,避免了手工提取特征或者人工规则,从原始数据中自动化地去提取特征,是一种端到端(end-to-end)的学习。相较于传统的方法,深度学习能够学习到更高效的特征与模式。

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

图生成技术

根据给定信息信息生成图表。

推荐文章
暂无评论
暂无评论~