全面改进Transformer类预训练模型,自然语言任务超越BERT

近日 arXiv 上一篇深度学习文章引起业内广泛关注:

论文标题:SegaBERT: Pre-training of Segment-aware BERT
论文链接:https://arxiv.org/abs/2004.14996

薄言 RSVP.ai 联合加拿大滑铁卢大学和北京大学提出全新预训练模型 SegaBERT,用以改进基于 Transformer 的预训练过程,在多种自然语言任务上全面超越 BERT。

预训练语言模型

语言模型(Language Modeling)作为自然语言领域经典的序列建模任务,已有数十年的研究历史。

近年来,因其自监督的特性备受学术界与工业界关注,相继涌现出 GPT2、BERT、RoBERTa、XLNET 等一系列预训练语言模型,不断刷新自然语言各类任务榜单。预训练+微调模式已然成为自然语言处理领域的新范式。
有趣的是,这些不断刷新各类排名榜单的预训练模型无一例外都采用了Transformer(Vaswani  et  al.,  2017)架构。该架构自 2017 年提出以来风靡自然语言领域,因其高效的自注意力机制,逐步替代传统的循环神经网络。

为了编码输入序列中词语之间的位置关系,Transformer 需要给每个输入 token 构建一个位置向量。每个位置向量表达了当前 token 在输入序列中的位置,模型通过海量的输入数据,来学习这些位置向量之间的关系。

然而,Transformer 的提出时,主要针对的是机器翻译等输入序列较短的自然语言任务(从 1~512 个词不等),而预训练语言模型的文本序列通常是篇章级别的长度(从 512~1024 个词不等)。

对于这种较长的自然语言序列而言,原始的 Transformer 的位置向量很难学习到显著的位置关系。

比如第 3 位和第 123 位的两个 token,可能是出现在同一个文章段落,并且是相邻的两个句子中的两个词;也可能是同一个文章段落,但非相邻的句子中的两个词;甚至是同一文章不同段落的两个词。

因此,仅仅指出两个词在整个输入文本序列中的位置,不足以表达它们在文本作者的篇章结构中的位置关系。

该文章中提出的 SegaBERT 模型,在 Transformer 原始位置向量的基础上,对段落、句子、词语三者间的位置关系联合建模,更符合语言逻辑习惯,也更益于模型学习。它使得 Transformer 结构对输入序列的分隔信息有了更好的建模能力,以此获得更好的文本编码表示,用以提升下游自然语言处理任务。

为了验证这种结构改进自身带来的功效,SegaBERT 模型使用了与 BERT 相同的训练配置,在人类自然语言理解任务 GLUE 的七项任务中全面超越 BERT,整体平均分数提升 1.2 个点。

同时,SegaBERT 也在斯坦福大学的阅读理解任务 SQUAD 中的 EM score 和 F1 score 两项指标上分别提升 1.2 和 1.5 个点。

论文介绍

和 BERT 相比,SegaBERT 为每个输入的词/子词构建其段落索引、句子索引和词索引,同时在模型中设置段落位置向量、句子位置向量和词位置向量。通过位置索引和位置向量为模型输入序列提供位置向量表示,如图 2 所示:
▲图2. 模型输入
相比 BERT 中使用 512 个词位置索引对输入序列中每个词进行位置标示,SegaBERT 采用 50 个段落位置索引、100 个句子位置索引和 256 个词位置索引,为输入序列中的每个词标示其三重位置信息。

即为每个词赋予一个三元组位置向量,分别包含其所在段落位置索引、所在句子在相应段落中的位置索引及该词在其所在句子内的位置索引。这样,SegaBERT 在进行文本编码时,能够做到片段感知(segment-aware),捕捉到更丰富的篇章结构信息。

因此,SegaBERT 在预训练阶段,能利用更丰富的位置表征,学习到信息更丰富的上下文表示。这样的改进,提升了预训练语言模型的文本编码能力,使其在微调阶段得到更完善的句子/篇章表示,进而提升下游任务的预测效果。

通过使用 Tesla V100 16 卡机,SegaBERT 预训练了 SegaBERT-base 模型和 SegaBERT-large 模型,分别采用 12 层 Transformer、768 维隐层表示、12 个多头注意力与 24 层 Transformer、1024 维隐层表示、24 个多头注意力。

其中,SegaBERT-base 模型只使用了 wikipedia 数据(12GB)进行训练,训练步数为 500K;而 SegaBERT-large 模型则使用了 wikibooks 数据(16GB),训练步数为 1M。

在训练任务上,SegaBERT 采用了和 BERT 相同的 MLM(掩码语言模型)任务,即对输入的 512 个 token 进行随机掩码。通过模型训练,对这些被掩码的位置进行预测,还原其原本的文本内容。值得注意的是,SegaBERT 并没有引入其他辅助任务,例如 NSP(下句预测)等。

实验结果

SegaBERT 采用同 BERT 相同的参数量、预训练数据与训练超参与进行语言模型预训练。其 Large 模型在人类自然语言理解任务 GLUE 中,七项任务超越 BERT,整体平均分数提升 1.2 个点。

除此之外,在斯坦福大学的阅读理解任务 SQUAD 中,SegaBERT 更是在 F1 score 和 EM score 上分别提升 1.2 和 1.5 个点,更是超越 KT-NET(基于 BERT 进行融合外部知识库的微调模型)、StructBERT(多种辅助任务参与预训练的改进版 BERT)和 BERT_DA(利用数据增广进行微调的 BERT)。
同时,为了说明添加的段落位置表示和句子位置表示的有效性,该文章还进行了在 BERT 原本的 512 个词位置索引的基础上,添加 50 个段落位置索引和 128 个句子位置索引的对比实验(对应下表中的实验组第二列 BERT with P.S.)。

这里需要说明的是,BERT 中的词位置索引是该词在整个输入的长度为 512 的序列中的绝对位置,而 SegaBERT 中词位置索引是该词在其所在句子中的相对位置。

可以看到,该组实验在除 CoLA 外的其余 7 项 GLUE 任务和阅读理解 SQUAD 任务相比于原始的 BERT 均有明显的提升,其中 SQUAD 任务的结果与 SegaBERT 相近。

这组实验表明,简单的段落和句子的位置表征引入,就能起到提升预训练语言模型的效果。
在 Transformer 和预训练语言模型成为 NLP 标准范式的今天,SegaBERT 通过重新定义 Transformer 底层输入的位置表征,在与 BERT 采用相同的预训练数据、计算资源与模型规模条件下,取得了较为明显的提升效果。

值得注意的是,这种新的位置表征方法并非仅限于改进 BERT,而是可以推广且应用到所有利用 Transformer 结构进行预训练语言模型的工作中。可以预见的是,作为第一篇研究 Transformer 输入片段多层次位置表征的论文,其位置表征问题会逐步成为预训练语言模型与 Transformer 结构的未来研究方向。
PaperWeekly
PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论BERT预训练模型Transformer
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~