李北作者 | 小牛翻译 / 东北大学自然语言处理实验室单位

ACL2020 | 多编码器是否能够捕获篇章级信息?

本文验证了多编码器在篇章级翻译任务上性能的提升并不是来源于上下文编码器对篇章级语义信息的编码,其更像是一个噪声生成器,为模型的训练提供了额外的训练信号。其次,在解码阶段屏蔽上下文编码器对BLEU并没有影响,进一步证明了上下文编码器在训练中类似于dropout作用。此外,本文提出一种基于高斯噪声的鲁棒性训练手段,可以达到和多编码器可比的性能,并在不同规模数据集上验证了方法的有效性。本文已被ACL 2020收录。
论文链接:https://arxiv.org/abs/2005.03393

篇章级翻译模型

近年来,神经机器翻译(NeuralMachineTranslation)已经取得了突破性的进展,尤其是目前基于自注意力机制的Transformer[1]模型掀起学术界的广泛关注,同时在工业界中也被广泛应用。目前神经机器翻译模型通常采用编码器-解码器(Encoder-Decoder)[2]的框架来完成源语言序列到目标语言序列的转换。其中,编码器对源语序列进行编码,得到稠密的实数向量表示,进而提取源语序列中的语义信息。之后解码器再利用该表示逐词地生成目标语序列。

目前的主流神经机器翻译模型都是基于句子级的,模型学习的是不同源语句子与目标语句子之间的映射关系,但是忽略了一个篇章中句子之间的上下文信息。然而在一些篇章翻译的场景中,句子间的上下文信息是不可或缺的。比如在出现一些指代或者一词多义的情况中,在当前句子无法做出区分时,往往需要根据句子间的上下文来确定其正确形式或词义,从而生成更连贯、一致的译文。这种编码上下文信息的建模方法通常被称为篇章级翻译(Context-AwareMachineTranslation)。如何高效地对额外的篇章级信息进行建模一直以来广受关注。目前有两种常见的做法来编码篇章信息:第一种是将当前句子的上下文与其进行拼接,得到一个多句的输入序列,将该序列作为输入送入模型,同时不需要修改模型结构;另外一种是采用多编码器(Multi-encoder)结构,通过额外的编码器来对上下文信息进行特征提取,之后与源语信息进行融合后用于目标语生成。

对比单编码器结构,多编码器可以更有效地对源语的上下文信息进行建模,其翻译性能更加显著。一些研究工作已经通过机器翻译的自动评价指标BLEU和一些专用测试指标来证明其方法的有效性。然而,由于篇章级的平行双语语料资源比较稀缺,常用的数据集规模比较小,其翻译性能也存在较大的波动。例如,在小数据集上(IWSLT等)合理地调整dropout的阈值能够明显的改善翻译质量。同时研究者发现在一些任务中,BLEU值的提升不仅仅来自于多编码器提供的额外源语相关信息,还来自于鲁棒性训练,额外的编码器可以看作一个噪音生成器来提供更多的训练信号。因此,研究者通过在一些篇章级翻译任务上对多编码器结构进行实验,进一步证实这个观点。

模型结构

篇章级翻译模型通过在翻译过程中结合句子间的上下文信息来获得更好的翻译结果,目前,这种端到端的模型大体可以分为两类:单编码器模型(Single-encoder)[3]和多编码器模型[4][5][6]。单编码器模型做法比较简单,不改变模型结构,通过将模型输入进行拼接的方式来捕捉句子间上下文信息。多编码器模型通过额外的编码器结构来对上下文信息进行表示,然后结合到整体翻译模型中。此外,一些研究人员通过共享编码器或者采用更复杂的网络结构对上下文表示进行抽取[7][8],也可以近似看作是多编码器结构。

在多编码器结构中,根据解码端对源语表示与上下文表示的集成方式,可以大致分为内部集成(Inside Integration)和外部集成(Outside Integration)两类。其中,外部集成[5][7][8]是指将源语编码器和上下文编码器的编码结果在送入解码器之前进行融合,得到一个统一的表示,具体融合方法可以采用注意力操作和门控的方式。与之相反,内部集成的方法是指将两个编码结果分开独立地送入解码器结构中,可以采取串行计算[6]与并行计算[4]两种融合方式。下图展示了外部集成和内部集成(并行)的模型结构:图:多编码器结构的两类集成方式

训练方式

由于篇章级双语数据相对较少,无法满足多编码器训练所需,因此需要采取一些方法来缓解数据稀缺的问题。常见的方法有两种:一种是参数共享[5][7],通过共享上下文编码器和源语端编码器的部分或全部参数,来减轻模型训练负担;另一种是两阶段训练[6][8],首先使用双语数据对句子级翻译模型进行预训练,然后在多编码器模型训练时复用其参数,继续训练剩余参数或全体参数。为了选取合适的基线,研究者首先对比了两种训练策略,结果如下表所示:表:不同训练策略的BLEU性能比其中,多编码器模型采用外部集成的方式;WS为共享了上下文编码器与源语端编码器的前n-1层参数;TS为采取两阶段训练方式,在句子级模型基础上训练整体模型。可以看到,两种策略都能取得显著提升,同时两阶段训练的方式相比参数共享具有些许的优势。其次,单层的上下文编码器也能取得和6层可比的结果,这可能是由于训练数据有限,所以不需要太复杂的模型。因此,研究者在之后的实验中采用了单层上下文编码器及两阶段训练的策略来训练多编码器模型。

不同上下文输入的对比

为了探究多编码器结构对最终翻译性能的影响,研究者提出了三种不同的上下文来进行对比实验:

(1)真实上下文(Context):当前待翻译句子的前一句。

(2)随机上下文(Random):在词典中随机采样构造的伪上下文。 

(3)固定上下文(Fixed):固定的一个句子。

此外,研究者在多个语种的翻译任务上进行实验,数据规模及实验结果如下表所示:

表:数据集规模

表:上下文对比实验结果其中Zh-En和Fr-En的数据来自于IWSLT的评测数据,En-De数据来自WMT评测数据,而En-Ru数据来自于Opensubtile。上表展示了多个篇章级模型在接收不同输入的条件下在上述4个数据集的翻译性能。为了保证结论的严谨性,研究人员分别在dropout为0.1和0.3的条件下进行实验。从表中可以观测到如下几个现象:

(1)多编码器模型对比单编码器和句子级模型在4个数据集上有明显的性能提升

(2)改变dropout的大小可以有效地缓解小数据集上的过拟合问题,显著地提升模型的翻译性能

(3)内部集成与外部集成的方法均带来不小的BLEU值提升。然而随着dropout值的增大,整体模型性能有了更大提升,但与句子级模型的差别变得更小。

(4)随机上下文和固定上下文并没有提供真实的上下文信息,却得到了与真实上下文相似的提升。这里进一步验证了BLEU值的提升并不是来自于额外的上下文信息,而是类似于引入了噪声信号,起到了正则化的作用。

鲁棒性训练

前文提到,多编码器可能起到了噪声产生器的作用,为模型提供更多训练信号。为了进一步验证这种假设,研究者在推理的时候屏蔽了上下文编码器生成的编码表示,结果如下表所示:

表:在推理时屏蔽上下文信息表中观测到屏蔽上下文信息后,BLEU值并没有下降,在一些测试集上甚至会略有提升,进一步确认了BLEU的提升不仅来自于上下文信息,更像是一种噪声生成器。简单来说上下文编码器得到表示作为一种噪声对网络的整体训练起到了正则化的作用。

此外,受启发于外部集成的方式,研究者提出使用一个高斯分布来模拟上下文编码器的作用,在源语编码器表示基础上直接添加一个高斯噪声,用来探究上下文编码器是否起到类似的作用,结果如下表所示:

表:高斯噪音对比可以看到,添加高斯噪音进行训练可以进一步提升模型的性能,甚至比多编码器外部集成方法略好一些,然而二者结合在一起没有带来叠加的效果。这更说明了多编码器本质上起到了类似噪声生成器的作用,噪声的叠加并不能带来明显的增益。

更大规模的训练

由于篇章级双语数据较为稀缺,上述大部分实验数据集相对较小。为了探究不同规模数据是否具有相同的现象,研究者使用500k至5M的中英双语数据进行实验,分别对比了句子级模型,随机上下文和添加高斯噪声三种方法的翻译性能。结果如下图所示:

图:不同规模数据对比随着数据规模增加,基线模型性能显著提升。而在不同规模的数据中,后两种方法对比基线均有一些优势,但是差距却随着数据规模增加而减少。这也符合我们的认知,更大的数据规模往往会缓解过拟合的问题,因此鲁棒性训练带来的提升也随之减小。

参考文献

[1]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems. 2017: 5998-6008.

[2]Sutskever I , Vinyals O , Le Q V . Sequence to Sequence Learning with Neural Networks[J]. Advances in neural information processing systems, 2014.

[3]Tiedemann J , Scherrer Y . Neural Machine Translation with Extended Context[C]// Proceedings of the Third Workshop on Discourse in Machine Translation. 2017.

[4]Jean S , Lauly S , Firat O , et al. Does Neural Machine Translation Benefit from Larger Context?[J]. 2017.

[5]Voita E , Serdyukov P , Sennrich R , et al. Context-Aware Neural Machine Translation Learns Anaphora Resolution[J]. 2018.

[6]Zhang J , Luan H , Sun M , et al. Improving the Transformer Translation Model with Document-Level Context[J]. 2018.

[7]Miculicich L , Ram D , Pappas N , et al. Document-Level Neural Machine Translation with Hierarchical Attention Networks[J]. 2018.

[8]Maruf S , Martins, André F. T, Haffari G . Selective Attention for Context-aware Neural Machine Translation[J]. 2019.

作者及团队介绍

李北,东北大学自然语言处理实验室 2020级博士生,研究方向:神经机器翻译、深层网络建模,篇章级翻译,解码加速等,在ACL、WMT、NLPCC、CCMT、中文信息学报等会议、杂志发表学术论文若干。

研究团队为小牛翻译,核心成员来自东北大学自然语言处理实验室,由姚天顺教授创建于 1980 年,现由朱靖波教授、肖桐博士领导,长期从事计算语言学的相关研究工作,主要包括机器翻译、语言分析、文本挖掘等。团队研发的小牛翻译系统已经得到广泛应用,目前支持 304种语言互译,通过小牛翻译开放平台(https://niutrans.com/)让机器翻译技术赋能全球企业。

理论多编码器ACL2020
相关数据
高斯分布技术

正态分布是一个非常常见的连续概率分布。由于中心极限定理(Central Limit Theorem)的广泛应用,正态分布在统计学上非常重要。中心极限定理表明,由一组独立同分布,并且具有有限的数学期望和方差的随机变量X1,X2,X3,...Xn构成的平均随机变量Y近似的服从正态分布当n趋近于无穷。另外众多物理计量是由许多独立随机过程的和构成,因而往往也具有正态分布。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

集成方法技术

在统计学和机器学习中,集成方法使用多种学习算法来获得比单独使用任何组成学习算法更好的预测性能。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

正则化技术

当模型的复杂度增大时,训练误差会逐渐减小并趋向于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会发生。这样,在学习时就要防止过拟合。进行最优模型的选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

推荐文章
暂无评论
暂无评论~