Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

「四大模型」革新NLP技术应用,揭秘百度文心ERNIE最新开源预训练模型

机器之心发布

机器之心编辑部

在 5 月 20 日结束的 2021 深度学习开发者峰会 WAVE SUMMIT 上,百度文心 ERNIE 开源了四大预训练模型。本文对这四大开源预训练模型进行了详细的技术解读。

2019 年以来,NLP 预训练模型在技术创新和工业应用上不断取得突破,但当前预训练模型仍有一些痛点困扰着开发者。

  • 仅考虑单一粒度语义建模,缺乏多粒度知识引入,语义理解能力受限;
  • 受限于 Transformer 结构的建模长度瓶颈,无法处理超长文本;
  • 聚焦语言等单一模态,缺乏工业真实应用场景针对多个模态如语言、视觉、听觉信息的联合建模能力。

5 月 20 日举办的 2021 深度学习开发者峰会 WAVE SUMMIT 上,依托飞桨核心框架,百度文心 ERNIE 最新开源四大预训练模型:多粒度语言知识增强模型 ERNIE-Gram、长文本理解模型 ERNIE-Doc、融合场景图知识的跨模态理解模型 ERNIE-ViL、语言与视觉一体的模型 ERNIE-UNIMO。

针对当前预训练模型现存的难点痛点,此次文心 ERNIE 开源的四大预训练模型在文本语义理解、长文本建模和跨模态理解三大领域取得突破,拥有广泛的应用场景和前景,进一步助力产业智能化升级。

四大模型革新NLP技术应用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新开源预训练模型
  • 文心 ERNIE 开源版地址:https://github.com/PaddlePaddle/ERNIE
  • 文心 ERNIE 官网地址:https://wenxin.baidu.com/

一、多粒度语言知识增强模型 ERNIE-Gram

从 ERNIE 模型诞生起,百度研究者们就在预训练模型中引入知识,通过知识增强的方法提升语义模型的能力。本次发布的 ERNIE-Gram 模型正是通过显式引入语言粒度知识,从而提升模型的效果。具体来说,ERNIE-Gram 提出显式 n-gram 掩码语言模型,学习 n-gram 粒度语言信息,相对连续的 n-gram 掩码语言模型大幅缩小了语义学习空间( V^n → V_(n-gram),其中 V 为词表大小,n 为建模的 gram 长度),显著提升预训练模型收敛速度。

四大模型革新NLP技术应用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新开源预训练模型

图 1-1:连续 n-gram 掩码语言模型 vs 显式 n-gram 掩码语言模型

此外,在显式 n-gram 语义粒度建模基础上,ERNIE-Gram 提出多层次 n-gram 语言粒度学习,利用 two-stream 双流机制,实现同时学习 n-gram 语言单元内细粒度(fine-grained)语义知识和 n-gram 语言单元间粗粒度(coarse-grained)语义知识,实现多层次的语言粒度知识学习。

四大模型革新NLP技术应用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新开源预训练模型


图 1-2:n-gram 多层次语言粒度掩码学习。

ERNIE-Gram 在不增加任何计算复杂度的前提下,在自然语言推断任务 、短文本相似度任务、阅读理解任务等多个典型中文任务上,效果显著超越了业界主流开源预训练模型。此外,ERNIE-Gram 英文预训练模型也在通用语言理解任务、阅读理解任务上效果超越主流模型。

ERNIE-Gram 的方法被 NAACL 2021 主会长文录用,论文地址:https://arxiv.org/abs/2010.12148

二、长文本理解模型 ERNIE-Doc

Transformer 是 ERNIE 预训练模型所依赖的基础网络结构,但由于其计算量和空间消耗随建模长度呈平方级增加,导致模型难以建模篇章、书籍等长文本内容。受到人类先粗读后精读的阅读方式启发,ERNIE-Doc 首创回顾式建模技术,突破了 Transformer 在文本长度上的建模瓶颈,实现了任意长文本的双向建模。

通过将长文本重复输入模型两次,ERNIE-Doc 在粗读阶段学习并存储全篇章语义信息,在精读阶段针对每一个文本片段显式地融合全篇章语义信息,从而实现双向建模,避免了上下文碎片化的问题。

此外,传统长文本模型(Transformer-XL 等)中 Recurrence Memory 结构的循环方式限制了模型的有效建模长度。ERNIE-Doc 将其改进为同层循环,使模型保留了更上层的语义信息,具备了超长文本的建模能力。

四大模型革新NLP技术应用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新开源预训练模型

图 2-1:ERNIE-Doc 中的回顾式建模与增强记忆机制。

通过让模型学习篇章级文本段落间的顺序关系,ERNIE-Doc 可以更好地建模篇章整体信息。

四大模型革新NLP技术应用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新开源预训练模型

图 2-2:篇章重排序学习。

ERNIE-Doc 显著提升了长文本的建模能力,可以解决很多传统模型无法处理的应用难题。例如在搜索引擎中,ERNIE-Doc 可以对网页整体理解,返回用户更加系统的结果。在智能创作中,ERNIE-Doc 可以用来生成更加长篇、语义丰富的文章。

超长文本理解模型 ERNIE-Doc 在包括阅读理解、信息抽取、篇章分类、语言模型等不同类型的 13 个典型中英文长文本任务上取得最优的效果。

ERNIE-Doc 的方法被 ACL 2021 主会长文录用,论文链接:https://arxiv.org/abs/2012.15688

三、融合场景图知识的跨模态理解模型 ERNIE-ViL

跨模态的信息处理能力需要人工智能模型深入理解并综合语言、视觉、听觉等模态的信息。当前,基于预训练的跨模态语义理解技术,通过对齐语料学习跨模态的联合表示,将语义对齐信号融合到联合表示中,从而提升跨模态语义理解能力。ERNIE-ViL 提出了知识增强的视觉 - 语言预训练模型,将包含细粒度语义信息的场景图(Scene Graph)知识融入预训练过程,构建了物体预测、属性预测、关系预测三个预训练任务,使得模型在预训练过程中更加关注细粒度语义知识,学习到能够刻画更好跨模态语义对齐信息,得到更好的跨模态语义表示。

四大模型革新NLP技术应用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新开源预训练模型

图 3-1:知识增强的跨模态预训练 ERNIE-ViL 框架。

ERNIE-ViL 首次将场景图知识融入跨模态模型的预训练过程,为跨模态语义理解领域研究提供了新的思路。该模型在视觉问答、视觉常识推理、引用表达式理解、跨模态文本 & 图像检索等 5 个典型跨模态任务上取得了领先的效果。ERNIE-ViL 模型也逐步在视频搜索等真实工业应用场景中落地。

ERNIE-ViL 的方法被 AAAI-2021 主会长文录用,论文地址:https://arxiv.org/abs/2006.16934

四、语言与视觉一体的模型 ERNIE-UNIMO

大数据是深度学习取得成功的关键基础之一。当前的预训练方法,通常分别在各种不同模态数据上分别进行,难以同时支持各类语言和图像的任务。基于深度学习的 AI 系统是否也能像人一样同时学习各种单模、多模等异构模态数据呢?如果能够实现,无疑将进一步打开深度学习对大规模数据利用的边界,从而进一步提升 AI 系统的感知与认知的通用能力。

为此,语言与视觉一体的模型 ERNIE-UNIMO 提出统一模态学习方法,同时使用单模文本、单模图像和多模图文对数据进行训练,学习文本和图像的统一语义表示,从而具备同时处理多种单模态和跨模态下游任务的能力。此方法的核心模块是一个 Transformer 网络,在具体训练过程中,文本、图像和图文对三种模态数据随机混合在一起,其中图像被转换为目标(object)序列,文本被转换为词(token)序列,图文对被转换为目标序列和词序列的拼接。统一模态学习对三种类型数据进行统一处理,在目标序列或者词序列上基于掩码预测进行自监督学习,并且基于图文对数据进行跨模态对比学习,从而实现图像与文本的统一表示学习。进一步的,这种联合学习方法也让文本知识和视觉知识互相增强,从而有效提升文本语义表示和视觉语义表示的能力。

四大模型革新NLP技术应用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新开源预训练模型

此方法在语言理解与生成、多模理解与生成,4 类场景、共 13 个任务上超越主流的文本预训练模型和多模预训练模型,同时登顶权威视觉问答榜单 VQA、文本推理榜单 aNLI。首次验证了通过非平行的文本与图像单模数据,能够让语言知识与视觉知识相互增强。

此工作被 ACL2021 主会长文录用, 论文地址:https://arxiv.org/abs/2012.15409

五、破解 NLP 技术难题,助力产业智能化

文心 ERNIE 全新开源发布 4 大预训练模型,不断推动 NLP 模型技术研究层面的创新与应用。

语言与知识技术被看作是人工智能认知能力的核心。2019 年以来,百度凭借在自然语言处理领域的深厚积累取得了系列世界突破,发布了文心 ERNIE 语义理解平台,该平台广泛用于金融、通信、教育、互联网等行业,助力产业智能化升级。

四大模型革新NLP技术应用,揭秘<mark data-type=institutions data-id=5896450e-2901-4458-8dc6-36debf202d02>百度</mark>文心ERNIE最新开源预训练模型

作为「人工智能皇冠上的明珠」,NLP 领域向来是人工智能技术研发与落地实践的前沿。百度文心平台基于领先的语义理解技术,帮助企业在 NLP 赛道上跨过技术、工具、算力、人才等门槛,对开发者和企业进行开放,全面加速 NLP 技术助力全产业智能化升级进程,为 AI 工业大生产插上智能的「翅膀」。


工程百度
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像检索技术

图像检索系统是用于从大型数字图像数据库浏览、搜索和检索图像的计算机系统。 大多数传统和常见的图像检索方法利用向图像添加诸如字幕、关键字或描述之类的元数据的一些方法,以便可以对注释词执行检索。 手动图像注释耗时,费力且昂贵; 为了解决这个问题,人们已经对自动图像标注进行了大量研究。

视觉问答技术

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

信息抽取技术

信息/数据抽取是指从非结构化或半结构化文档中提取结构化信息的技术。信息抽取有两部分:命名实体识别(目标是识别和分类真实世界里的知名实体)和关系提取(目标是提取实体之间的语义关系)。概率模型/分类器可以帮助实现这些任务。

语义学技术

语义学,也作“语意学”,是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。虽然各个学科之间对语义学的研究有一定的共同性,但是具体的研究方法和内容大相径庭。语义学的研究对象是自然语言的意义,这里的自然语言可以是词汇,句子,篇章等等不同级别的语言单位。

百度机构

百度是全球领先的人工智能平台型公司。百度大脑是中国领先的“软硬一体AI大生产平台”,是百度AI的集大成,对外全方位输出超过270多项核心AI能力,服务230万开发者。飞桨是中国首个全面开源开放、功能完备的产业级深度学习平台,是中国自主研发的“智能时代的操作系统”。百度智能云是百度AI To B 业务的重要承载者和输出者,是产业智能化领导者。小度助手是中国领先的对话式人工智能操作系统,拥有中国市场最繁荣、开放的对话式人工智能生态,今年6月,小度助手语音交互次数超过58亿次。作为全球领先的、最活跃的自动驾驶开放平台,百度Apollo代表中国最强自动驾驶实力,被知名研究公司Navigant Research列为全球四大自动驾驶领域领导者之一。目前聚焦在以自动驾驶、汽车智能化、智能交通为核心的三大赛道。自动驾驶技术方面,超过十项中国第一,实力领跑行业。智能交通方面,百度 “ACE交通引擎”是全球首个车路行融合的全栈式智能交通解决方案。

https://www.baidu.com/
Transformer-XL技术

Transformer-XL 预训练模型是对 Transformer 及语言建模的修正,这项前沿研究是2019年1月份公布。一般而言,Transformer-XL 学习到的长期依赖性比标准 Transformer 学到的长 450%,无论在长序列还是短序列中都得到了更好的结果,而且在评估时比标准 Transformer 快 1800 多倍。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
自监督学习技术

一个例子中的内容特别多,而用一个例子做一个任务,就等于把其他的内容浪费了,因此我们需要从一个样本中找出多个任务。比如说遮挡图片的一个特定部分,用没遮挡部分来猜遮挡的部分是一个任务。那么通过遮挡不同的部分,就可以用一个样本完成不同任务。Yann Lecun描述的这个方法被业界称作「自监督学习」

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

推荐文章
暂无评论
暂无评论~