曾祥极作者Hao Wang编辑

ACL 2019提前看:预训练语言模型的最新探索

ACL 2019 将于 7 月 28 日至 8 月 2 日在意大利佛罗伦萨举办。机器之心技术分析师曾祥极挑选了 ACL 2019 收录的与语言模型相关的三篇文章,分别从可变长度 Transformer、BERT 表征学习的深层次解析以及多语言迁移学习 BERT 三方面来介绍预训练语言模型的最新进展。

ACL,英文全称是 The Association for Computational Linguistics,中文全称是国际计算语言学协会。ACL 于 1962 年成立,主要致力于为研究自然语言处理或者计算语言学的专业人士提供服务。为了促进自然语言处理领域的学术交流,ACL 每年都会举办学术会议,如 ACL、EMNLP 和 NAACL 等。ACL 2019(第 57 届会议)即将于 2019 年 7 月 28 日至 8 月 2 日在意大利佛罗伦萨举办。

自从 2018 年预训练语言模型 BERT 提出之后,由于 BERT 的强大表征能力和知识储备能力,预训练语言模型将自然语言处理的大部分任务水平都提高了一个等级。学术界也不免掀起了研究预训练语言模型的热潮,著名的有 OpenAI 的 GPT-2,还有最近又有把任务效果提升一大截的 XLNet,当然这其中也还有许多其它相关的研究,我就不一一列举了。

本文精心挑选了 ACL 2019 最新收录的与语言模型相关的三篇文章,分别从可变长度 Transformer、BERT 表征学习的深层次解析以及多语言迁移学习 BERT 这三方面来介绍预训练语言模型的最新进展。

论文解读

1. Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

链接:https://arxiv.org/pdf/1901.02860.pdf

第一作者 Zihang Dai 目前是 CMU 的在读博士生,最近火热的 XLNet 就是出自该作者所在的团队之手。预训练语言模型 BERT 在给定输入长度内的句子序列上可以很好地建模依赖关系,但是对于超出长度限制的句子序列就无能为力了。

举个例子,如果我们需要做阅读理解的任务,给定一篇非常长的文章,由于 BERT 不能够把这篇文章一次性输入进行编码,而只能是按照 BERT 的最大输入长度把文章切割成不同的小片段进行编码。这样做的同时也引起了一些问题,虽然 BERT 可以对片段内不同的符号(Tokens)进行依赖建模,但是小片段之间的语义依赖等却无法建模。

本文提出的 Transformer-XL 旨在解决这个编码问题,作者称之为上下文碎片(context fragmentation)问题,它通过段级别的循环机制(segment-level recurrence mechanisim)和新型的位置编码方案(positional encoding scheme)来解决输入句子序列的长程依赖问题。实验证明,Transformer-XL 学习到的依赖比一般的 RNN 长 80% 左右,更是比传统的 Transformer 长 450% 左右,而且在评估期间,它的速度比传统的 Transformer 快 1800 倍。

1.1. 分段编码

介绍里面我们谈到,为了对输入句子序列进行编码,最初的 Transformer 会将输入句子序列根据预先设定好的最大长度切分成更小的片段,然后 Transformer 再对这些片段进行单独的训练,作者称这种模型为香草模型(Vanilla Model)。

图 1-1. 香草模型训练过程动画,来源 https://ai.googleblog.com/2019/01/transformer-xl-unleashing-potential-of.html

如图 1-1 所示,该图为香草模型的训练过程动画图,即分块单独训练。在这种训练方式下,香草模型学到的输入序列符号之间的依赖与模型预先设定的最大输入长度有关,通常长度为几百个单词,而且信息无法在不同的分块中流动。

图 1-2. 香草模型评估过程动画,来源 https://ai.googleblog.com/2019/01/transformer-xl-unleashing-potential-of.html

如图 1-2 所示,该图为香草模型的评估过程动画。在评估的每一步中,香草模型的最大段长度与训练期间相同,但是每次往后移动的时候只移动一个位置,而且只在最后一个位置进行预测,这会导致评估过程的计算复杂度非常高。

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
理论自然语言处理其他智能领域预训练语言模型ACLACL 2019
3
暂无评论
暂无评论~