参与张倩 杜伟

预训练语言模型关系图+必读论文列表,清华荣誉出品

预训练语言模型(PLM)是 NLP 领域的一大热门话题。从 BERT 到 GPT2 再到 XLNet,各种预训练模型层出不穷,不少同学感叹,「大佬慢点,跟不上了……」那么,这么多预训练模型要怎么学?它们之间有什么关联?为了理清这些问题,来自清华大学的两位本科同学整理了一份预训练语言模型必读论文列表,还用图的形式整理出了这些模型之间的复杂关系。

Github 项目:https://github.com/thunlp/PLMpapers


项目的两位作者——王晓智和张正彦都是清华大学的在读本科生。其中,王晓智师从清华大学计算机系教授李涓子和副教授刘知远,研究方向为 NLP 和知识图谱中的深度学习技术,于今年 4 月份入选 2019 年清华大学「未来学者」计划第二批名单;张正彦则参与过孙茂松教授指导的很多工作,如之前发布的「图神经网络必读论文列表」。此外,他还是增强版语言表征模型 ERNIE 的第一作者,并参与了多领域中文预训练模型仓库 OpenCLaP 的创建。


在这个预训练模型论文列表项目中,两位同学首先给出了一份预训练语言模型的关系图:

图中列出了 BERT、GPT、XLNet、ERNIE 等大家熟知的模型以及它们之间的关系。以 BERT 和清华大学提出的 ERNIE 为例,张正彦等人曾在论文中指出,BERT 等预训练语言模型只能学习语言相关的信息,学习不到「知识」相关的信息。因此他们提出用知识图谱增强 BERT 的预训练效果,让预训练语言模型也能变得「有文化」。在这张图中我们可以清楚地看到论文中阐述的这种关系,即 BERT+知识图谱→ERNIE(清华版)。这种简化版的展示对于初学者理清思路非常有帮助。


除了这张关系图,两位同学还给出了一份预训练语言模型必读论文列表。列表分为三个部分:模型、知识蒸馏与模型压缩以及相关分析论文。机器之心曾经介绍过其中的一些论文,读者可以根据链接找到相关论文中文介绍。


模型部分包含 34 篇论文,列表如下:




其中,机器之心介绍过的论文如下:



「知识蒸馏与模型压缩」部分包含 11 篇论文,列表如下:


其中,机器之心介绍过的论文如下:



分析部分包含 26 篇论文,列表如下:


其中,机器之心介绍过的论文如下:



参考链接:

https://github.com/thunlp/PLMpapers

工程清华大学BERT预训练模型
5
相关数据
韩松人物

2017 年斯坦福大学电子工程系博士毕业,师从 NVIDIA 首席科学家 Bill Dally 教授。他的研究也广泛涉足深度学习和计算机体系结构,他提出的 Deep Compression 模型压缩技术曾获得 ICLR'16 最佳论文,ESE 稀疏神经网络推理引擎获得 FPGA'17 最佳论文,对业界影响深远。他的研究成果在 NVIDIA、Google、Facebook 得到广泛应用,博士期间创立了深鉴科技,现为麻省理工学院电气工程和计算机科学系的助理教授。

ELMo技术

ELMO 是“Embedding from Language Models”的简称, ELMO 本身是个根据当前上下文对 Word Embedding 动态调整的思路。ELMO 采用了典型的两阶段过程,第一个阶段是利用语言模型进行预训练;第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的 Word Embedding 作为新特征补充到下游任务中。

孙茂松人物

孙茂松,教授,博士生导师,曾任清华大学计算机科学与技术系系主任,现任教育部在线教育研究中心副主任、清华大学计算机系党委书记、清华大学大规模在线开放教育研究中心主任。

推荐文章
暂无评论
暂无评论~