泽南、蛋酱、杜伟报道

覆盖40种语言:谷歌发布多语言、多任务NLP新基准XTREME

自然语言权威数据集 GLUE 一直是衡量各机构 NLP 预训练技术水平最重要的指标之一。近年来在其榜单之上实现更好的成绩,也成为了科技公司技术提升的体现。不过现有的大多数 NLP 基准仅限于英文任务,无法评价 NLP 模型在其他语言上的能力。

近日,来自 CMU、谷歌研究院和 DeepMind 的科学家们提出了覆盖四十种语言的大规模多语言多任务基准 XTREME,希望一举解决这个问题。

自然语言处理(NLP)所面临的其中一个关键性挑战是,构建的系统不仅要在英文中 work,而且要在世界范围内约 6900 种语言中也 work。幸运的是,虽然大多数语言呈现数据稀疏(data sparse)且没有充足可用的数据来自行训练鲁棒的模型,但其中的很多语言共享大量的底层结构。

此外,NLP 领域有很多方法在训练过程中利用到了多语言的共享结构,以克服数据稀疏的问题。但不足的是,大多数这些方法侧重于在多语言中执行特定任务。近几年,得益于深度学习的进展,有更多的方法试图学习通用的多语言表示(如 mBERT、XLM 和 XLM-R),这些方法旨在捕获跨语言间共享且对多任务有用的知识。但在实践中,这类方法的评估却大多侧重于一小部分任务以及相似的语言

因此,为了鼓励人们在多语言学习领域开展更多研究,谷歌研究院联合 CMU、DeepMind 发表了研究论文《XTREME: A Massively Multilingual Multi-task Benchmark for Evaluating Cross-lingual Generalization》,该研究覆盖了 40 种类型不同的语言(跨 12 个语系),并包含了 9 项需要对不同句法或语义层面进行推理的任务。

在 XTREME 大规模多语言多任务基准上选择 40 种不同类型的语言,这是为了实现语言多样性、现有任务覆盖以及训练数据可用性的最大化。其中一些是 under-studied 的语言,如达罗毗荼语系中的泰米尔语(印度南部、斯里兰卡和新加坡)、泰卢固语和马拉雅拉姆语(主要集中在印度南部)以及尼日尔-刚果语系中的斯瓦希里语和约鲁巴语(非洲)。

  • 论文地址:https://arxiv.org/pdf/2003.11080.pdf

  • 项目地址:https://github.com/google-research/xtreme

XTREME 论文的并列一作是 CMU 语言技术研究所的在读博士胡俊杰,和 DeepMind 著名的研究科学家 Sebastian Ruder

XTREME

XTREME 中的任务涵盖了句子分类、结构化预测、句子检索和问答等一系列样式,因此,为了使模型在 XTREME 上取得好的表现,就必须学习可以泛化至多标准跨语种迁移设置的表征

XTREME 支持的任务类型。

每种任务都涵盖 40 种语言的子集,为了获得 XTREME 分析所用的低资源语言的附加数据,自然语言推理(XNLI)和问答(XQuAD)这两个代表性任务的测试集会自动从英语翻译为其他语言。模型在使用这些翻译过来的测试集执行任务时的性能表现,可与使用人工标注测试集的表现相媲美

Zero-shot 评估

在使用 XTREME 评估模型的性能之前,首先要用支持跨语言学习的多语言文本进行模型预训练。然后根据任务特定的英语数据对模型进行微调,因为英语是最容易获得标签化数据的语言。之后,XTREME 会评估这些模型的 zero-shot 跨语言迁移性能,包括在其他没有任务特定数据的语言中。

下图展示了「预训练-微调-zero-shot 迁移」的过程:

模型的跨语言迁移学习过程:1、针对多语言文本的预训练;2、使用英语对下游任务进行微调;3、使用 XTREME 进行 zero-shot 评估。

在实际操作中,这种 zero-shot 设置的好处就在于计算效率,预训练模型仅需要针对每个任务在英语数据上进行微调,便能直接应用于其他语言的评估。但对于其他有标签化数据的语言的任务,研究者也进一步对比了微调结果,根据在 9 个 XTREME 任务上的 zero-shot 得分来提供最终综合得分。

迁移学习测试平台

研究者使用了几种多语言预训练 SOTA 模型进行了实验,包括:

  • 多语言 BERT(mBERT):BERT 的多语言扩展版本;

  • XLM 和 XLM-R:规模更大、数据处理量更多版本的「多语言 BERT」;

  • M4:大规模多语言机器翻译模型。

所选用的这些模型都有一个共同特点,就是已经过多种语言的大量数据的预训练。在本次实验中,研究者使用这些模型的变体——变体已在大概 100 种语言中进行了预训练,其中也包括 XTREME 上的 40 种语言。

实验结果表明,虽然模型在大多数现有英语任务中的表现接近于人类表现,但在许多其他语言中的表现却明显落了下风。在所有模型中,结构化预测和问答这两项任务在英语和其他语种之间的性能差距最为明显,而结构化预测和句子检索这两项任务则在跨语言结果上分布差异最大

下图按照任务和语言的类别,展示了 zero-shot 设置下的 best-performing 模型 XLM-R 在所有语系中的表现。不同任务之间的分数不可相比,重点在于同一任务下、不同语系中的相对排名,如图所示,许多高资源语言比如印欧语系,排名一直比较高。相比之下,该模型在其他语种,比如藏语、日语、韩语等语言上的性能排名较低

在 zero-shot 设置下,XTREME 基准上 best-performing 模型(XLM-R)在所有任务和语言上的性能表现。得分是基于 task-specific 度量的百分比,并且在不同任务之间没有直接比较。人类表现(如果可用)则由红星表示。

总之,研究者得出了以下一些有趣的观察结果:

  • 在 zero-shot 设置下,M4 和 mBERT 在大多数任务上表现出与 XLM-R 媲美的性能,但是 XLM-R 在特别具有挑战性的问答任务上要优于前两者。例如,在 XQuAD 任务上,XLM-R 得分为 76.6,高于 M4 的 64.6 和 mBERT 的 64.5。三者在 MLQA 和 TyDi QA 任务上的表现情况也是如此;

  • 利用机器翻译的基线方法,在翻译训练数据或测试数据时,都会表现出强大的性能。例如,在 XNLI 任务上,mBERT 在 zero-shot 迁移设置下得分为 65.4,但在使用翻译过的训练数据时,得分提升到了 74.0。

  • few-shot 设置(即使用有限的语内标签数据)对 NER 等相对简单的任务会表现出特别强大的性能,但对于更为复杂的问答任务则帮助有限。以 mBERT 的性能表现为例,在 few-shot 设置下,它在 NER 任务上的性能提升了 42%,得分由 62.2 提升到 88.3;但在问答任务上(TyDi QA),性能仅提升了 25%,得分由 59.7 提升到 74.5;

  • 最后,所有模型和设置在英文和其他语言上的性能表现依然存在很大的差距,这表明跨语言迁移依然有着巨大的研究潜力。

跨语言迁移分析

与此前对于深度模型泛化能力的观察类似,我们可以看到预训练数据越多,效果就更好,如 mBERT 遇 XLM-R 相比。不过这种相关性并未出现在结构化预测任务中:在词性标记(POS)和命名实体识别(NER)等任务上,当前的深度预训练模型无法完全利用预训练数据来迁移此类语法任务。

研究人员还发现模型也很难迁移到非拉丁语言中。这种情况在 POS 任务上非常明显,其中 mBERT 在西班牙语上的 zero-shot 准确率为 86.9%,在日语上仅为 49.2%。

对于自然语言推理任务 XNLI,研究者发现模型在同一个预测上,英语和其他语言相同的情况为 70%。半监督方法可能会有助于提高翻译成其他语言后预测的一致性。研究者还发现,模型很难预测出英语训练数据中未出现的 POS 标记,这表明这些模型难以从用于预训练的大量未标记数据中学习其他语言的语法。

对于实体命名识别,模型预测最为不准确的是与英语差异最大的几种语言——其在印尼语和斯瓦西里语中的准确度为 58.0 和 66.6,相比之下,葡萄牙语和法语为 82.3 和 80.1。

多语言迁移学习

英语的使用人数仅占全球人口的 15%,但其 NLP 研究却最为充分。研究者相信通过构建深度上下文表示方式,我们就拥有了为全球其他种类的语言提供实质性技术进展的工具。XTREME 或许可以成为多语言迁移学习的重要一步,就像 GLUE 和 SuperGLUE 在单语言模型基准上那样,催生出类似 BERT、RoBERTa、XLNet、AlBERT 的优秀模型。

参考内容:http://ai.googleblog.com/2020/04/xtreme-massively-multilingual-multi.html

入门NLPXTREME大规模多语言多任务基准谷歌
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

命名实体识别技术

命名实体识别(NER)是信息提取(Information Extraction)的一个子任务,主要涉及如何从文本中提取命名实体并将其分类至事先划定好的类别,如在招聘信息中提取具体招聘公司、岗位和工作地点的信息,并将其分别归纳至公司、岗位和地点的类别下。命名实体识别往往先将整句拆解为词语并对每个词语进行此行标注,根据习得的规则对词语进行判别。这项任务的关键在于对未知实体的识别。基于此,命名实体识别的主要思想在于根据现有实例的特征总结识别和分类规则。这些方法可以被分为有监督(supervised)、半监督(semi-supervised)和无监督(unsupervised)三类。有监督学习包括隐形马科夫模型(HMM)、决策树、最大熵模型(ME)、支持向量机(SVM)和条件随机场(CRF)。这些方法主要是读取注释语料库,记忆实例并进行学习,根据这些例子的特征生成针对某一种实例的识别规则。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

自然语言推理技术

自然语言推理是在给定“前提”的情况下确定“假设”是真(蕴涵),假(矛盾)还是未确定(中立)的任务。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

迁移学习技术

迁移学习 是属于机器学习的一种研究领域。它专注于存储已有问题的解决模型,并将其利用在其他不同但相关问题上。比如说,用来辨识汽车的知识(或者是模型)也可以被用来提升识别卡车的能力。计算机领域的迁移学习和心理学常常提到的学习迁移在概念上有一定关系,但是两个领域在学术上的关系非常有限。

推荐文章
暂无评论
暂无评论~