王凯作者王凯整理北京智源人工智能研究院来源

XLNet 第一作者杨植麟:为什么预处理模型XLNet比BERT、RoBERTa更加优越

在2020年2月11日下午的“智源论坛Live | 青年科学家线上报告会”中,智源青年科学家、循环智能(Recurrent AI)联合创始人杨植麟做了题为《Latest Advances of Neural Language Models》的主题演讲

杨植麟,2019年博士毕业于卡内基梅隆大学,师从苹果AI负责人Ruslan Salakhutdinov,他曾与图灵奖得主Youshua Bengio、Yann LeCun合作发表论文,本科毕业于清华大学,导师为智源学者唐杰教授。杨植麟在自然语言理解半监督学习等30多个数据集上取得历史最好结果(State-of-the-Art,SOTA)。

在本次演讲中,杨植麟系统解析了他的最新代表作品——XLNet。XLNet是由CMU和Google Brain Team携手提出的自然语言处理预训练框架,杨植麟作为核心研究成员,以第一作者的身份在NIPS 2019上发表了关于XLNet的论文[1]。XLNet 如今已经是NLP领域近年来最被关注的模型之一,它在18 项NLP任务中拿到最优成绩(SOTA),包括机器问答、自然语言推断、情感分析和文档排序等。

在演讲中,杨植麟抽丝剥茧般回顾了他设计XLNet时一步步的思考历程,从融合自回归语言模型,到纳入降噪自编码模型的优点,再到引进双流自注意力机制等,这些创新最终使得XLNet和Google BERT[2]、Facebook RoBERTa [3]模型的对比实验中取得了优异的成绩。此外,杨植麟还展望了对AI数据模型的趋势性看法,见解独到,相信会给大家带来很多启迪。

下面是杨植麟演讲的精彩要点。

一、NLP预训练模型近年来的发展

在进入XLNet设计框架之前,杨植麟首先介绍一些相关的前置知识,简介了NLP预训练模型近年来的发展。在NLP领域,可以将训练数据分为两类:一类是有标注数据,即每条数据的类别都经过了人工标注;另一类为无标注数据,也就是无预先人工标注的原始数据。有标注数据因为增加了人工预处理流程,一般会取得比较好的表现,但缺陷是成本比较高,这便导致现存的训练数据一般是由大量无标注数据和少量有标注数据构成。在这样的背景下,NLP学者们便开始提出先无监督预训练、后有监督微调的模型训练范式。

率先出现的是词嵌入模型,典型代表如2013年Mikolov等人提出的Word2Vec[4]、2014年Pennington等人提出的GloVe[5]等,它们可谓是无监督预训练模型的雏形。但词嵌入模型的问题在于一个单词只能对应一个词向量,即在不同的上下文中,同一个词的编码是相同的,这使得语言的一词多义问题无法得到解决。于是学术界开始着力探索基于上下文的预训练模型,尤其是2018年下半年至2019年上八年间涌现了一批代表,包括:Peters等人提出的ELMo [6]、Radford等人提出的GPT系列[7,8],Devlin等人提出的BERT等。值得一提的是,这些预训练模型的内部组件也在不断改进中:ELMo由循环神经网络LSTM组成,GPT系列、BERT则由基于自注意力机制的Transformer[9]组成,而Tansformer的改进模型——Tansformer-XL[10],也是杨植麟本人核心参与的代表性作品。

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
理论BERT自然语言处理XLNet杨植麟Recurrent AI循环智能
71
相关数据
唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名,该系统于2006年3月推出,目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

半监督学习技术

半监督学习属于无监督学习(没有任何标记的训练数据)和监督学习(完全标记的训练数据)之间。许多机器学习研究人员发现,将未标记数据与少量标记数据结合使用可以显着提高学习准确性。对于学习问题的标记数据的获取通常需要熟练的人类代理(例如转录音频片段)或物理实验(例如,确定蛋白质的3D结构或确定在特定位置处是否存在油)。因此与标签处理相关的成本可能使得完全标注的训练集不可行,而获取未标记的数据相对便宜。在这种情况下,半监督学习可能具有很大的实用价值。半监督学习对机器学习也是理论上的兴趣,也是人类学习的典范。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

GloVe技术

Stanford开发的用于词向量表示的一个库/工具

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

词嵌入技术

词嵌入是自然语言处理(NLP)中语言模型与表征学习技术的统称。概念上而言,它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中,每个单词或词组被映射为实数域上的向量。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

词袋模型技术

词袋模型(英语:Bag-of-words model)是个在自然语言处理和信息检索(IR)下被简化的表达模型。此模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的方式表现,这种表现方式不考虑文法以及词的顺序。最近词袋模型也被应用在电脑视觉领域。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

ELMo技术

ELMO 是“Embedding from Language Models”的简称, ELMO 本身是个根据当前上下文对 Word Embedding 动态调整的思路。ELMO 采用了典型的两阶段过程,第一个阶段是利用语言模型进行预训练;第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的 Word Embedding 作为新特征补充到下游任务中。

自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真(蕴涵),假(矛盾)还是未确定(中立)的任务。

Transformer-XL技术

Transformer-XL 预训练模型是对 Transformer 及语言建模的修正,这项前沿研究是2019年1月份公布。一般而言,Transformer-XL 学习到的长期依赖性比标准 Transformer 学到的长 450%,无论在长序列还是短序列中都得到了更好的结果,而且在评估时比标准 Transformer 快 1800 多倍。

文档排序技术

排序学习技术是构建排序模型的机器学习方法,在信息检索、自然语言处理,数据挖掘等机器学场景中具有重要作用。排序学习的主要目的是对给定一组文档,对任意查询请求给出反映相关性的文档排序。

推荐文章
京东・算法工程师
这个说的很清楚。