神经语言模型的最新进展

昨日,卡内基梅隆大学博士杨植麟受邀至清华大学计算机系进行主题为「神经语言模型的最新进展」的演讲。

杨植麟是卡内基梅隆大学计算机科学学院的四年级博士生,由Apple AI负责人Ruslan Salakhutdinov指导。在过去的三年中,他作为第一作者在ICIR、ICML、NeurIPSACL和EMNLP等顶级AI会议发表了10多篇论文,并且获得了Nvidia先锋研究奖,Facebook ParlAI研究奖,Nvidia博士奖学金和Siebel奖学金。他曾在Facebook AI Research和Google Brain工作,并与JasonWeston,Quoc V. Le,Yann Lecun,Yoshua Bengio和Chris Manning合作,曾在唐杰教授指导下,在本科时便发表多篇论文,并以GPA第一名的成绩获得了清华大学的学士学位。

在此次演讲中,他介绍了改进神经语言模型神经架构的最新进展:

  1.  超越Softmax瓶颈的高秩语言模型

  2. 用于建模长距离依赖性的Transformer网络。通过提出的技术,在六个主流语言建模数据集上取得世界第一的结果,包括enwiki8、text8、Penn Treebank、WikiText-2、WikiText-103和One Billion Words。

  3. 此外还介绍了HotpotQA,这是一个用于测试多步推理的挑战数据集。

以下是他此次演讲的主要内容

他首先提到了深度学习自然语言处理的最近趋势,如下:

  • 优化语言建模目标的变量

  • 用于下游任务的精细调优或特征提取

但是他随即表明挑战依然存在:

  • 如何改进神经语言模型

  • 更困难的任务:多跳推理(multi-hop reasoning),可解释性

此次演讲内容依次为:

  • High-rank LM(高秩语言模型

  • Transformer-XL

  • HotpotQA

第一部分:High-rank LM(高秩语言模型

1. 语言模型的构建:自回归因式分解

2. 带softmax的神经语言模型介绍:构建

因式分解

Softmax瓶颈:如果embedding size太小,则Softmax没有表达真实数据分布的能力。

语言模型的秩是什么?—“base meanings”的最小值,需要线性地跨越整个对数概率空间。

高秩假设说明Softmax瓶颈是真实存在的。

怎么样解决Softmax瓶颈?(基本思路)

提出的解决办法:Mixture ofSoftmaxes (MoS)

在Penn Treebank (PTB)、WikiText-2 (WT2)、One Billon WordDataset以及三个数据集集合上的实验效果,显示数据集越大,该方法的提升效果越明显。

总的来说,从softmax到MOS取得了很好的效果,其他的任务需要更高秩的表达,例如,摘要、对话、机器翻译、自动语音识别等。

第二部分:Transformer-XL

Transformer介绍:Transformer是Vaswani等人提出来的概念 Transformer  → Multi-Head Self-Attention +Positional Encoding。

Vanilla Transformer Language Models的构建步骤

Transformer-XL构建语言模型

Transformer-XL的训练

Transformer-XL的警告:

  • 位置编码对于时态信息至关重要

  • 标准位置编码不允许重用以前的状态

enwiki8、text8、Penn Treebank、WikiText-2、WikiText-103和One Billion Words数据集实验均显示State-of-the-art的结果。

第三部分:HotpotQA

他提到了《HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering》这篇论文,并给大家讲了“HotpotQA”这个数据集名称的由来,他和同学在纽约吃火锅的时候讨论到这个问题,说想要建立这样一个数据集,所以就起名叫

火锅QA,顺便还可以发扬一下中国的火锅,看样子,做这个数据集的同学们也是一群吃货呐。

接下来他给大家介绍了根据目前问答的研究现状,HotpotQA设计来实现跨多个文档的多跳推理。

实验数据集的统计与分析

在演讲的最后,他表示未来的工作主要有两项:

1. 将这些新的模型运用到预训练中

2. HotpotQA方法与BERT类似的方法进行比较

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
产业自然语言处理深度学习神经语言模型
3
相关数据
唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名,该系统于2006年3月推出,目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

基于Transformer 的双向编码器表征技术

BERT是谷歌发布的基于双向 Transformer的大规模预训练语言模型,该预训练模型能高效抽取文本信息并应用于各种NLP任务,并刷新了 11 项 NLP 任务的当前最优性能记录。BERT的全称是基于Transformer的双向编码器表征,其中“双向”表示模型在处理某一个词时,它能同时利用前面的词和后面的词两部分信息。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

长距离依赖技术

也作“长距离调序”问题,在机器翻译中,比如中英文翻译,其语言结构差异比较大,词语顺序存在全局变化,不容易被捕捉

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

因式分解技术

在数学中,把一个数学因子(比如数字,多项式,或矩阵)分解其他数学因子的乘积。比如:整数15可以分解成两个质数3和5的乘积,一个多项式x^2 -4 可被因式分解为(x+2)(x-2)。

神经语言模型技术

语言模型是估计单词序列的联合概率函数,比如给一个长度为m的单词序列,通过使用语言模型,可以获得这m个单词分布的概率P(W1,...,Wm)。对于许多的自然语言处理的应用,可以估计不同短语的概率是极具应用价值的。语言模型可以应用于语音识别,机器翻译,语音标记,解析,手写识别,信息检索等领域。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~