王宇轩,车万翔,郭江,刘一佳,刘挺论文作者

EMNLP 2019 | 基于BERT的跨语言上下文相关词向量在零样本依存分析中的应用

论文名称:Cross-Lingual BERT Transformation for Zero-Shot Dependency Parsing

论文作者:王宇轩,车万翔,郭江,刘一佳,刘挺

原创作者:王宇轩

下载链接:https://www.aclweb.org/anthology/D19-1575/

1.简介

跨语言词向量对于跨语言迁移学习具有重要意义。本文提出一种简单快捷的离线跨语言BERT投射方法,该方法能够利用预训练好的BERT模型生成跨语言上下文相关词向量。我们在零样本跨语言依存分析任务中实验了这种词向量,取得了远超使用传统跨语言上下文无关词向量方法的目前最好结果。我们还将这种词向量与XLM(一种使用跨语言数据重新训练BERT的方法)进行了对比,实验表明在与该方法取得相近结果的情况下,我们的方法所需的训练数据和计算资源远少于XLM,同时训练速度也更快。

我们公布了代码和训练好的17种语言投射到英语的模型,使用这些模型可以快速将不同语言的BERT表示向量投射到同一语义空间中。

代码及模型路径为:

https://github.com/WangYuxuan93/CLBT

2.背景和动机

大部分现有的跨语言上下文相关词向量训练方法采用在线学习(On-Line Learning)策略,首先从头开始利用跨语言数据训练语言模型,之后从中抽取跨语言词向量。这种方法不但需要大量计算资源和跨语言数据,而且训练时会花费大量时间。
为了解决这一问题,我们提出跨语言BERT投射模型(Cross-Lingual BERT Transformation, CLBT),利用现有的预训练好的单语BERT模型,采用离线学习(Off-Line Learning)策略,训练一个从源语言到目标语言的线性映射,将不同的上下文相关词向量投射到同一语义空间中。由于在训练时利用了包含上下文的词对齐数据中的语义等价性,我们的方法能够维持词义信息不变。
如图1所示,西班牙语的BERT向量通过CLBT模型投射到英语的语义空间后,两种语言中具有相近语义的向量会更接近。

图1 CLBT模型示意图

3.方法

传统上下文无关的跨语言词向量学习方法一般只需要双语词典作为训练的监督信号。但在CLBT的训练过程中,需要包含上下文信息的词对齐数据,才能获得BERT的表示向量。因此我们使用无监督词对齐工具获得包含上下文的词对作为训练数据。

给定n个包含上下文信息词对,我们首先用预训练好的单语BERT模型获得它们的表示向量。训练目标为找到一个合适的线性映射W,使得经过其投射的源语言向量与其对应的目标语言向量距离最小:
W为正交矩阵时,其可以通过奇异值分解(SVD)求得:
其中XY分别是源语言和目标语言的词向量矩阵。
虽然该方法可以很快地计算出线性映射,但随着训练数据的增多,其运行所需内存也会显著增大,因此我们还尝试了用梯度下降(GD)方法求解该问题,并将结果与SVD方法进行了对比。
4.实验
我们在Universal Dependency Treebanks (UD v2.2)上选取了18种语言进行了实验,其中英语为源语言,其它语言为目标语言。在训练时只在英语数据上训练基于图的Biaffine分析器模型,然后在CLBT的跨语言上下文相关词向量的帮助下将该模型直接应用于目标语言上。
我们与3个基线模型进行了对比,其中FT-SVD是此前该数据集上最好的模型,他们利用了跨语言的上下文无关词向量;mBERT为直接将多语言BERT模型(该模型使用一百余种语言的语料进行训练,但训练时无显式跨语言监督信号)应用到该任务中代替跨语言词向量;XLM利用跨语言数据从头训练跨语言的语言模型,然后从中抽取跨语言上下文相关词向量。
表1 在UD v2.2数据上的实验结果(LAS)与FT-SVD和mBERT的对比
表1对比了我们的模型与FT-SVD和mBERT,可以看出我们提出的CLBT模型在17种语言中的15种上都显著优于这两种基线方法,且平均LAS比此前该数据集上的最好模型(FT-SVD)高了2.91%。
表2 在UD v2.2数据上的实验结果(LAS)与XLM的对比
表2中对比了我们的CLBT模型与XLM。我们在两个模型都实验了的4种语言上进行了对比,同时列出了二者使用数据量的对比。结果表明在与XLM取得近似效果的情况下,我们的CLBT模型使用的双语训练数据量要远远少于他们。
5.结论
本文提出了一种基于离线学习的跨语言上下文相关词向量学习方法,显著提高了零样本跨语依存分析的性能。通过利用公开的预训练好的单语BERT模型,我们的方法能够在利用有限的双语数据快速获取跨语言上下文相关词向量。由于在训练过程中没有针对依存分析任务进行微调,理论上来说用CLBT模型获得的跨语言上下文相关词向量可以应用到任何跨语言任务中。
哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

理论BERTEMNLP 2019
2
相关数据
刘挺人物

哈工大人工智能研究院副院长,国内NLP方向领军人物。

奇异值分解技术

类似于特征分解将矩阵分解成特征向量和特征值,奇异值分解(singular value decomposition, SVD)将矩阵分解为奇异向量(singular vector)和奇异值(singular value)。通过分解矩阵,我们可以发现矩阵表示成数组元素时不明显的函数性质。而相比较特征分解,奇异值分解有着更为广泛的应用,这是因为每个实数矩阵都有一个奇异值分解,但未必都有特征分解。例如,非方阵型矩阵没有特征分解,这时只能使用奇异值分解。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

在线学习技术

在计算机科学中,在线学习是一种机器学习方法。和立即对整个训练数据集进行学习的批处理学习技术相反,在线学习的数据按顺序可用,并在每个步骤使用未来数据更新最佳预测器。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

语义等价技术

在计算机元数据中,语义等价是来自不同词汇表的两个数据元素包含具有相似含义的数据的声明。

推荐文章
暂无评论
暂无评论~