复旦邱锡鹏超全NLP预训练模型综述论文:两张图带你梳理完整脉络


自从 BERT 横空出世以后,尽管算力要求比较大,但预训练语言模型仍层出不穷,有点类似当年 GAN 大量更新的盛况。虽然只过去了一两年,但形形色色的预训练语言模型确实让我们弄不清楚整体状况到底是什么样的。

我们知道 BERT、ALBERT、XLNet 等众多优秀模型,但它们之间的关系、差别、分类到底是什么样的?这还是主流模型,如果没读过具体论文,我们是很难分清楚的,对于更多的变体与扩展,基本上就无能为力了。但近日复旦大学邱锡鹏等研究者发了一篇论文,它以两张图详细展示了预训练语言模型的现状与分类。

复旦的这篇综述性论文非常丰富,它以 25 页的篇幅展示了预训练语言模型的方方面面,不论是新奇的预训练任务,还是各种模型针对领域知识的扩展,我们都能快速 Get 到。

论文:Pre-trained Models for Natural Language Processing: A Survey
论文地址:https://arxiv.org/pdf/2003.08271.pdf

具体而言,以邱锡鹏为第一作者的研究者们对用于 NLP 的预训练模型进行了全面的回顾,文章体结构如下:

  • 首先简要介绍了语言表示学习及相关研究进展;

  • 其次从四个方面对现有 PTM 进行系统分类(Contextual、Architectures、Task Types、Extensions);

  • 再次描述了如何将 PTM 的知识应用于下游任务;

  • 最后展望了未来 PTM 的一些潜在发展方向。


研究者表示,本文旨在为读者理解、使用和开发适用于不同 NLP 任务的预训练模型提供一份实用指南,这篇论文在机器学习社区上也得到了很广泛的响应。

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
理论复旦预训练模型NLP复旦大学
1
相关数据
复旦大学机构

复旦大学(Fudan University),简称“复旦”,位于中国上海,由中华人民共和国教育部直属,中央直管副部级建制,国家双一流(A类)、985工程、211工程建设高校,入选珠峰计划、111计划、2011计划、卓越医生教育培养计划、卓越法律人才教育培养计划、国家建设高水平大学公派研究生项目,九校联盟(C9)、中国大学校长联谊会、东亚研究型大学协会、环太平洋大学协会的重要成员,是一所世界知名、国内顶尖的全国重点大学。

相关技术
Transformer-XL技术

Transformer-XL 预训练模型是对 Transformer 及语言建模的修正,这项前沿研究是2019年1月份公布。一般而言,Transformer-XL 学习到的长期依赖性比标准 Transformer 学到的长 450%,无论在长序列还是短序列中都得到了更好的结果,而且在评估时比标准 Transformer 快 1800 多倍。

神经结构搜索技术

神经结构搜索(NAS)表示自动设计人工神经网络(ANN)的过程。

推荐文章
暂无评论
暂无评论~