重磅!百度多模态模型ERNIE-ViL刷新5项任务纪录,登顶权威榜单VCR


近日,百度在多模态语义理解领域取得突破,提出知识增强视觉-语言预训练模型 ERNIE-ViL,首次将场景图(Scene Graph)知识融入多模态预训练,在 5 项多模态任务上刷新世界最好效果,并在多模态领域权威榜单 VCR 上超越微软、谷歌、Facebook 等机构,登顶榜首。此次突破充分借助飞桨深度学习平台分布式训练领先优势。据机器之心了解,基于飞桨实现的 ERNIE-ViL 模型也将于近期开源。
多模态语义理解是人工智能领域重要研究方向之一,如何让机器像人类一样具备理解和思考的能力,需要融合语言、语音、视觉等多模态的信息。

近年来,视觉、语言、语音等单模态语义理解技术取得了重大进展。但更多的人工智能真实场景实质上同时涉及到多个模态的信息。例如,理想的人工智能助手需要根据语言、语音、动作等多模态的信息与人类进行交流,这就要求机器具备多模态语义理解能力。

近日,百度在该领域取得突破,提出业界首个融合场景图知识的多模态预训练模型 ERNIE-ViL。百度研究者将场景图知识融入到视觉-语言模型的预训练过程,学习场景语义的联合表示,显著增强了跨模态的语义理解能力。ERNIE-ViL 还在包括视觉常识推理视觉问答、引用表达式理解、跨模态图像检索、跨模态文本检索等 5 项典型多模态任务中刷新了世界最好效果。并在多模态领域权威榜单视觉常识推理任务(VCR)上登顶榜首。
  • 论文链接:https://arxiv.org/abs/2006.16934

  • ERNIE 开源地址:https://github.com/PaddlePaddle/ERNIE

ERNIE-ViL 登顶 VCR 榜单

VCR Leaderboard 最新版。子任务一:Q->A(Question Answering)。子任务二:QA→R(Answer Justification)。综合得分:Q→AR:模型的综合表现(两个子任务都对才得分)。

上小学的时候,“看图说话”在语文试卷中常年占据着一席之地。比如给出下面这张图,让我们描述图里的人物在干什么、想什么、有着怎样的心情。

同样,在人工智能领域,机器也需要具备“看图说话” 的能力。

如下边这张图,出题人问:“右边的那个人是如何获得她面前的钱的?”进一步还要回答 “你为什么做出这样的推断?” 也就是说,模型不仅需要识别出图像中的物体 “人”、“乐器”、“硬币”,还需要对它们的关系 “人演奏乐器” 等进行理解,并通过 “街头表演挣钱” 这样的常识进行推理。 

VCR(Visual Commonsense Reasoning,视觉常识推理)就是由十几万这样的图片和问题组成的数据集。该数据集由华盛顿大学和艾伦人工智能研究所的研究者联合创建,考查的是模型的多模态语义理解与推理能力。

微软、谷歌、Facebook 等科技公司及 UCLA、佐治亚理工学院等顶尖高校都对该任务发起了挑战。

6 月 24 号,该榜单被再次刷新,来自百度 ERNIE 团队的 ERNIE-ViL 在单模型效果和多模型效果上都取得了第一的成绩,并在联合任务上以准确率领先榜单第二名 3.7 个百分点的成绩登顶,超越了微软、谷歌、Facebook 等机构。

融合场景图知识的 ERNIE-ViL

当人们看到上面这张图的时候,首先会关注图中的物体(Objects)以及特点属性(Attributes)和期间的关系(Relationships)。如:“车”、 “人”、“猫”、“房屋” 等物体构成了图片场景中的基本元素;而物体的属性,如:“猫是白的”,“汽车是棕色的” 则对物体做了更精细的刻画;物体间的位置和语义关系,如:“猫在车上”,“车在房屋前” 等,建立了场景中的物体的关联。因此,物体、属性和关系共同构成了描述视觉场景的细粒度语义(Detailed Semantics)。

基于此观察,百度的研究者将包含场景先验知识的场景图(Scene Graph)融入到多模态预训练过程中,建模了视觉-语言模态之间的细粒度语义关联,学习到包含细粒度语义对齐信息的联合表示。

如下图所示,基于文本中解析出的场景图,ERNIE-ViL 提出了三个多模态预训练的场景图预测(Scene Graph Prediction)任务:物体预测(Object Prediction)、属性预测(Attribute Prediction)、关系预测(Relationship Prediction)。
  • 物体预测:随机选取图中的一部分物体,如图中的“house”,对其在句子中对应的词进行掩码,模型根据文本上下文和图片对被掩码的部分进行预测;

  • 属性预测:对于场景图中的属性 - 物体对,如图中的“<dress, blue>”,随机选取一部分词对其中的属性进行掩码,根据物体和上下文和图片对其进行预测; 

  • 关系预测:随机选取一部分 “物体 - 关系 - 物体” 三元组,如图的“<cat, on top of, car >”,然后对其中的关系进行掩码,模型根据对应的物体和上下文和图片对其进行预测。

通过场景图预测任务,ERNIE-ViL 学习到跨模态之间的细粒度语义对齐,如将语言中 “猫”、“车是棕色的”、“猫在车上” 等语义信息对应到图像中相应的区域。

除以上提出的场景图预测的任务外,ERNIE-ViL 的预训练还使用了掩码语言模型(Masked Language Modelling)、掩码图像区域预测(Masked Region Prediction)、图文对齐(Image-Text Matching)等任务。

实验结果

研究者通过视觉常识推理视觉问答等多模态下游任务,对 ERNIE-ViL 的模型能力进行了验证。

除了在视觉常识推理任务上取得 SOTA 之外,ERNIE-ViL 在视觉问答、跨模态图片检索、跨模态文本检索、引用表达式理解等任务上也刷新了 SOTA 结果。

引用表达式理解(Referring Expressions Comprehension, RefCOCO+)任务是给定一段自然语言描述,图像中定位到相关的区域,该任务涉及到细粒度的跨模态语义对齐(自然语言短语与图像区域),因此更加考查联合表示对语义刻画的精细程度,ERNIE-ViL 在该任务的两个测试集上(testA、testB)对比当前最优效果均提升了 2.0 个百分点以上。

视觉问答(Visual Question Answering,VQA)任务是给定一个图片以及文本描述的问题,要求模型给出答案。该任务需要对文本和图像进行更深入的理解和推理,同时该任务里的问题涉及细粒度的语义(物体、物体属性、物体间关系),能够检验模型对于场景的理解深度。ERNIE-ViL 在该任务上以 74.93% 的得分取得了单模型的最好成绩。

跨模态图像 & 文本检索 (Cross-modal Image-Retrieval,IR; Cross-modal Text-Retrieval,TR)任务是多模态领域的经典任务,给定图像检索相关的文本以及给定文本检索相关的图像。该任务实质上是计算图像模态和文本模态在语义上的相似度,要求模型同时兼顾整体语义和细粒度语义。ERNIE-ViL 在这两个任务上分别以 R@1 提升 0.56 个百分点和 0.2 个百分点的结果刷新了 SOTA。

模型分析

百度研究者通过构建多模态完形填空测试实验,验证了 ERNIE-ViL 更强的跨模态知识推断能力:给定一组图片 - 文本对齐数据,分别将文本中的物体、关系或属性词掩码,让模型根据上下文和图片进行预测。实验表明,在对文中表述细粒度语义的词(物体、属性、关系)进行预测时,ERNIE-ViL 表现更为优越,准确率分别提升 2.12%、1.31% 和 6.00%。

同时,论文中给出了完形填空测试的若干实例,从下图中可以看出,ERNIE-ViL 往往能够更精确地预测出被掩码的物体、属性和关系,而基线模型往往只能预测出原有词的词性,但是很难准确预测出具体的词。

结语

听懂、看懂、理解环境是人工智能的重要目标之一,实现该目标的首要任务是让机器具备多模态语义理解能力。此次百度提出的知识增强多模态模型 ERNIE-ViL,首次将场景图知识融入多模态模型的预训练过程,在视觉问答、视觉常识推理等 5 个任务上刷新纪录,为多模态语义理解领域研究提供了新的思路。除了上述公开数据集效果突破外,ERNIE-ViL 技术也逐步在真实工业应用场景中落地。未来百度将在该领域进行更深入的研究和应用,使其发挥更大的商业和社会价值。
理论NLP多模态学习百度ERNIE
相关数据
Microsoft机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像检索技术

图像检索系统是用于从大型数字图像数据库浏览、搜索和检索图像的计算机系统。 大多数传统和常见的图像检索方法利用向图像添加诸如字幕、关键字或描述之类的元数据的一些方法,以便可以对注释词执行检索。 手动图像注释耗时,费力且昂贵; 为了解决这个问题,人们已经对自动图像标注进行了大量研究。

视觉问答技术

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

文本检索技术

文本检索(Text Retrieval)与图象检索、声音检索、图片检索等都是信息检索的一部分,是指根据文本内容,如关键字、语意等对文本集合进行检索、分类、过滤等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~