Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部机器之心报道

ACL 2021 | 百度NLP开源语言与视觉一体的统一模态预训练方法,登顶各类榜单

百度首创地提出了语言与视觉一体的预训练方法 UNIMO,提供了一种新的统一模态学习范式,打破了文本、图像和图文对等数据间的边界,让机器可以像人一样利用大规模异构模态数据,学习语言知识与视觉知识并相互增强,从而实现感知与认知一体的通用 AI 能力。

百度在 2021 年深度学习开发者峰会 WAVE SUMMIT 上开源了语言与视觉一体的预训练模型 ERNIE-UNIMO,其核心方法 UNIMO 已经被 NLP 顶级会议 ACL 2021 主会正式录用为 oral 长文。

在机器之心 7 月 31 日举办的 ACL 2021 论文分享会上,本文第一作者李伟详细介绍了他们的这项研究成果,感兴趣的同学可以点击阅读原文查看回顾视频


AI 系统能否像人一样,使用一个统一的大脑模型,实现感知认知一体的通用能力?基于此出发点,百度提出的 UNIMO 试图构建面向各种不同模态的统一预训练模型。

论文地址:https://arxiv.org/abs/2012.15409
代码地址:https://github.com/PaddlePaddle/ERNIE/tree/develop/ernie-unimo

此方法首创的同时还能学习大量的文本、图像、图文对数据,通过跨模态对比学习,有效的让语言知识与视觉知识进行统一表示和相互增强。UNIMO 在语言理解与生成、跨模态理解与生成,4 类场景共 13 个任务上超越主流的文本预训练模型和跨模态预训练模型,同时登顶视觉问答榜单 VQA、文本推理榜单 aNLI 等权威榜单,首次验证了通过非平行的文本与图像等单一模态数据,能够让语言知识与视觉知识相互增强。目前 UNIMO 已经逐步在百度的产品中落地应用。

UNIMO 方法介绍

大数据是深度学习取得成功的关键基础之一。根据应用数据的模态不同,深度学习应用领域大体包括:在文本数据上进行自然语言处理,在视觉数据上进行视觉应用,在图文数据上进行跨模态应用。显然,人类大脑对各种模态数据的学习并非独立的,比如,人类大脑在看到图片之后能够自动联想到相关的语言知识,反之亦然。对各种模态数据的融会贯通,使得人类能够充分学习各类语言、视觉、语音知识并相互增强,通过统一的模型展现出强大的智能水平。那么,基于深度学习的 AI 系统是否也能像人一样同时学习异构模态数据呢?如果能够实现,无疑将进一步打开深度学习对大规模数据利用的边界,从而进一步提升 AI 系统的感知与认知一体的通用 AI 能力。

为此,百度提出面向异构模态数据的统一预训练方法 UNIMO,同时使用文本、图像和图文对数据进行训练,学习文本和图像的统一语义表示,从而具备同时处理多种单一模态和跨模态下游任务的能力。UNIMO 的核心模块是一个 Transformer 网络,在具体训练过程中,文本、图像和图文对三种模态数据随机混合在一起,其中图像被转换为目标(object)序列,文本被转换为词(token)序列,图文对被转换为目标序列和词序列的拼接。UNIMO 对三种类型数据进行统一处理,在目标序列或者词序列上基于掩码预测进行自监督学习,并且基于图文对数据进行跨模态对比学习,从而实现图像与文本的统一表示学习。进一步的,这种联合学习方法也让文本知识和视觉知识互相增强,从而有效提升文本语义表示和视觉语义表示的能力。

异构模态的统一预训练最大的挑战是如何跨越不同模态间的语义鸿沟从而实现语义表示的统一。如下图所示,UNIMO 提出了创新的跨模态对比学习方法,同时引入相关联的图文对数据、文本数据和图像数据进行联合对比学习。具体地,UNIMO 通过文本改写的方式,对图文对进行数据增广,获得大量的正例和强负例图文对数据。同时为了更好的利用文本和图像数据,UNIMO 通过文本与图像检索,获得相关的图像和文本作为正例。这样利用扩充后的多种类型的正例以及高质量强负例,UNIMO 在统一的语义空间上进行联想对比,从而能够学习到精确对齐的跨模态语义表示。

UNIMO 实验结果

在实验方面,UNIMO 使用了大量的文本、图像和图文数据进行联合学习,同时在各种单一模态和跨模态下游任务上进行验证。预训练数据部分,文本语料包括 Wikipedia、BookCorpus、OpenWebText 等共 54G 语料;图像数据是从互联网爬取的 170 万张图像;而图文对数据则包括 COCO Caption、Visual Genome、Conceptual Caption、SBU Caption。下游任务既包括图文搜索、视觉问答、图描述生成、视觉推断等跨模态任务,也包括文本分类、阅读理解、文本摘要、问题生成等各种文本任务。模型上,Base 基于 12 层的 Transformer,而 Large 使用 24 层。

在跨模态任务上,论文主要对比 ViLBERT、UNITER、Oscar、Villa 等最新的跨模态预训练模型。实验结果表明,UNIMO 在图文检索 Flick、视觉推断 SNLI-VE、视觉问答 VQA、图描述生成 CoCo Caption 上均稳定地超过此前的各种预训练模型,充分说明了统一预训练 UNIMO 模型能够有效地处理各种跨模态任务。

特别地,UNIMO 同时还能处理纯文本任务。此前的跨模态预训练模型,在处理纯文本任务的时候效果急剧下降,部分任务下降幅度甚至超过 10-20 个点。而 UNIMO 在各类文本理解和生成任务上,包括文本分类、文本推断、文本摘要、阅读理解和问题生成,均取得不错的效果,超过 RoBERTa、XLNet、UniLM 等经典文本模型。

为了验证 UNIMO 进行单一模态和跨模态统一学习的必要性,论文进行了分离实验。实验结果表明,当不使用文本数据进行预训练的时候,UNIMO 在跨模态任务上效果有所下降。而当不使用图文对数据和图像数据的时候,UNIMO 在文本任务上同样会下降。这充分说明,UNIMO 统一学习的方式,能够让文本知识与视觉知识相互增强,有效提升任务效果。

UNIMO 应用

UNIMO 可以支持各类文本与跨模态任务,既可以支持以文搜图和以图搜文,也能支持根据图片生成文字描述、根据文字描述自动生成图片,还支持对图片内容进行问答。当然,UNIMO 也支持纯语言的任务,如文本推理、阅读理解、文本生成等。从实际应用任务的结果来看,研究发现 UNIMO 能够让视觉和语言互相增强,从而实现更好的应用效果。目前部分技术已经开始在百度搜索中落地,帮助用户获取更符合需求的图片、视频。这里看下实际任务上的样例效果。

跨模态检索以文搜图、以图搜文

UNIMO 能够根据文字描述搜索相关图片,或者根据图片搜索相关文本描述。从结果上看,UNIMO 能够更准确的理解文字或图片的语义,检索出更匹配的图片或文字。

跨模态问答:

UNIMO 也支持使用自然语言对图片内容进行提问。UNIMO 能理解图片中的内容和概念,并结合模型学习到的背景知识,准确的进行推理回答。

跨模态生成:根据文字生成图片

UNIMO 能够根据文字描述生成对应的图片。从结果中,我们可以发现 UNIMO 能够很好的对齐视觉和语言的属性和概念,从而生成准确清晰的图片。

百度首创地提出了语言与视觉一体的预训练方法 UNIMO,提供了一种新的统一模态学习范式,打破了文本、图像和图文对等数据间的边界,让机器可以像人一样利用大规模异构模态数据,学习语言知识与视觉知识并相互增强,从而实现感知与认知一体的通用 AI 能力。或许,异构模态的统一学习是迈向通用人工智能的关键节点之一。未来百度将在统一模态学习上做出更多工作和应用,敬请期待。
理论百度预训练方法
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

视觉问答技术

百度机构

百度是全球领先的人工智能平台型公司。百度大脑是中国领先的“软硬一体AI大生产平台”,是百度AI的集大成,对外全方位输出超过270多项核心AI能力,服务230万开发者。飞桨是中国首个全面开源开放、功能完备的产业级深度学习平台,是中国自主研发的“智能时代的操作系统”。百度智能云是百度AI To B 业务的重要承载者和输出者,是产业智能化领导者。小度助手是中国领先的对话式人工智能操作系统,拥有中国市场最繁荣、开放的对话式人工智能生态,今年6月,小度助手语音交互次数超过58亿次。作为全球领先的、最活跃的自动驾驶开放平台,百度Apollo代表中国最强自动驾驶实力,被知名研究公司Navigant Research列为全球四大自动驾驶领域领导者之一。目前聚焦在以自动驾驶、汽车智能化、智能交通为核心的三大赛道。自动驾驶技术方面,超过十项中国第一,实力领跑行业。智能交通方面,百度 “ACE交通引擎”是全球首个车路行融合的全栈式智能交通解决方案。

https://www.baidu.com/
跨模态检索技术

指融合不同模态进行检索,通过利用不同模态的互补信息达到提高检索准确率的目的。跨模态数据呈现底层特征异构 、高层语义相关的特点。如何表示底层特征 、怎样对高层语义建模以及如何对模态间的关联建模 ,这些都是跨模态检索面临的挑战。

推荐文章
暂无评论
暂无评论~