搜狗机器翻译团队获得 WMT 2017 中英机器翻译冠军

By 机器之心2017年8月12日 10:11
每年的第三季度都是机器学习相关的顶级学术会议密集召开的时期,今年也不例外。其中,作为自然语言处理领域顶级国际会议之一的 EMNLP 2017 将于今年 9 月在丹麦首都哥本哈根举行,与此同时,第二届机器翻译大会(WMT 2017)将会作为本次会议的分论坛同时召开。今年的一大亮点是,WMT 首次增设了中文和英文间的新闻数据翻译任务。


搜狗语音交互技术中心代表搜狗参加了这次含金量极高的比赛,该中心研发的搜狗神经网络机器翻译(Sogou Neural Machine Translation)系统在「中文-英文」机器翻译任务中获得了冠军。这个系统采用了哪些新方法、新结构,又为我们提供了哪些新思路?让我们结合论文聊一聊 Sogou NMT。




WMT 是机器翻译领域的国际顶级评测比赛之一。近年来,几乎所有的研究机构在发表关于机器翻译新方法的论文时,都会以 WMT 数据集作为实验数据,并以 BLEU 评分来衡量方法的有效性,给出一个量化的、可比的翻译质量评估,因此,WMT 数据集已经成为机器翻译领域公认的主流数据集。


事实上,WMT 是一个开始自 2006 年 ACL 的国际机器翻译研讨会,提供统一的数据集,内容通常集中于新闻,并将结果以竞赛的形式呈现出来,旨在促进机器翻译研究机构之间的学术交流和联系,推动机器翻译研究和技术的发展。从去年开始,WMT 正式从一个研讨会(workshop)变成了一项会议(conference),作为自然语言领域顶级会议 ACL 或 EMNLP 的分会,延续竞赛的性质,扩展任务的范围以及语言对的数量。今年的 WMT 2017 将跟随 EMNLP 一起在 9 月举行。作为新闻机器翻译任务的 7 个语言对之一,中英语言对首次出现在比赛任务中,并由南京大学、厦门大学、中科院等机构联合协助提供相关数据。共有 20 支团队提交了中文-英文翻译系统、15 支团队提交了英文-中文翻译系统。参赛队伍包括美国的约翰霍普金斯大学(JHU)、俄勒冈州立大学、美国空军研究实验室;加拿大的加拿大国家研究院(NRC)、英国的爱丁堡大学、罗彻斯特大学;中国的中科院计算技术研究所、厦门大学等。


Sogou NMT 在中文到英文翻译任务中名列第一。其中,在中文到英文翻译任务的八项评价标准中(其中四项为 BLEU 及 BLEU 的变体),获得了七项第一。


Sogou NMT 的模型主体采用了业界主流的神经机器翻译模型:基于循环神经网络(recurrent neural network, RNN)的多层编码器-解码器(encoder-decoder)结构,并带有注意力(attention)模块。


神经机器翻译在大规模翻译任务上第一次获得超越统计机器翻译(SMT)的效果不过是 2014 年的事情(著名的 RNN encoder-decoder 结构就发表在 2014 年的 EMNLP 上),如今三年过去了,机器翻译顶级论文中已经几乎难以见到统计机器翻译的身影,神经机器翻译已经成为了机器翻译领域的主流。如今,简单地对神经网络模型的套用已经不足以被顶级会议接收,研究者们讨论的核心问题通常是如何优化神经网络结构以便解决机器翻译中的词对齐、罕见词、长句等难点问题。2014 年提出的注意力(attention)模块就是针对性处理因为不同语言语法结构不同产生的语序不同、来源词与目标词对齐难的问题。注意力机制通过选全局性的选择关注源语言橘子的不同部分,动态地构建上下文向量来对传统 RNN 编码器-解码器进行了优化,极大改善了语言调序,尤其是中长距离调序问题。最近,谷歌的学者又提出了完全基于注意力的翻译架构,注意力机制不再是连接编码器和解码器的模块,而是模型的主体,取得了性能上的突破。当然,从工程实践角度,如今主流的机器翻译系统,无论是谷歌、脸书还是搜狗,都仍然使用 RNN 编码器-解码器结构。


编码器和解码器都有三层,其中编码器的第一层为双向层。与谷歌的 GNMT 双向八层结构相比这个神经网络并没有那么深,因此在效率上能够获得不小的提高。并且解码器中,只有最底层接受语义向量的语境信息。根据论文所言,增加层数给中文到英文的翻译系统带来了 0.8 BLEU 的性能提升。


除此之外,Sogou NMT 系统还使用了如下四类技巧来提升模型质量:



从这一张「技巧清单」中,我们可以看出,搜狗的机器翻译团队在自然语言处理和深度学习方面有非常深厚的积累。因为系统中用到的许多技巧,追本溯源,都有相应的自然语言处理领域的经典方法,同时也紧跟机器翻译领域的前沿趋势。


罕见词和集外词(OOV)的处理是一个虽然在 BLEU 评分上提升不多,却在论文中被重点着墨、强调其在人工评议中的作用的模块。由于 WMT 是新闻数据集,因此最重要的罕见词类别是人名。搜狗用了两个串联的模块来处理人名。首先是标注模型,NER,又称命名实体识别,是自然语言处理的经典任务,文中用了传统机器学习领域的条件随机场(CRF)模型对源句和目标句中的词同时进行标注,挑出其中在两侧都被标为「人物」的词,用词典的办法进行解决。这适用于数据中出现过的「罕见词」。对于标注模型也不能解决的集外词,搜狗采用了将词进一步拆分,然后建立「神经人名翻译网络」,把源句中的人名变为 BPE(字节对编码)子词串,再复原为目标句中的人名的做法。


集成方法和重排序方法都使用了传统机器学习中的集思广益思想。


集成方法最早见于文本信息的分类问题,是传统机器学习中一个有「深度」的模型。模型通常由第一层的基础分类器和第二层的集成分类器组成,基础分类器分别给出分类预测,而后集成分类器对基础分类器的预测结果进行集成整合,给出最后结果。在 NMT 的语境下,集成的结构没有上述这么复杂:系统取四个初始化参数不同的最优模型,综合其信息给出 n 个最佳翻译的候选列表,供下一步重排序使用。


重排序方法源于搜索排序,先模糊匹配再精确排序的办法在实践中获得了非常不错的效果,而后也扩展到了语音、自然语言等领域。文中的重排序也可以视为集成方法中的「集成层」,它用一些不同于之前的方法从另外的角度考量不同的翻译选项。本文中,重打分阶段涉及的模型包括:目标句右向左模型(target right-to-left model)、目标句到源句模型(target-to-source models)以及 N-gram 语言模型。目标句右向左模型采用了从后往前生成目标句的方法;目标句到源句模型通过减小「源到目标」和「目标到源」两个对齐矩阵的差异(disagreement)来减少注意力噪声。由于 Sogou NMT 同时进行中文到英文和英文到中文的任务,因此二者的主模型互为「目标句到源句模型」。实验证明,重排序采用的翻译候选范围对于模型效果也很重要,将翻译候选从 10 个提高到 100 个可以让中文到英文翻译系统提高 0.7 BLEU 分。


SogouNMT 系统创新性地将许多自然语言处理门类中非翻译任务的方法用于机器翻译中,通过向神经网络添加额外的机器学习模块来提升质量来点对点解决神经机器翻译中的具体问题。从某种意义上来说,发现能够和神经网络「黑箱」肩并肩工作并提高翻译质量的模块,也是给予神经网络以可解释性的一种宝贵思路。


团队介绍


搜狗机器翻译团队成立于 2016 年,是搜狗知音引擎的重要技术方向,成立之初,基于知音引擎团队在语音技术方面的积累,半年内自研完成了搜狗自有的神经网络机器翻译技术,并在 2017 年 5 月的 WMT 国际机器翻译评测中获得中英翻译的冠军。在深耕技术的同时,也在积极推进产品落地,目前机器翻译技术已经成功应用于搜狗同传和搜狗输入法中语音和文本翻译产品中。其中,搜狗同传技术于 2016 年 11 月 17 日在第三届世界互联网大会上完成首次演示,目前已经在多场重要会议场中使用,支持了数十场机器同传演示,输入法中的语音翻译和文本翻译上线以来日均 pv 已达 200 万次。


声明:本文由机器之心原创出品,版权归作者所有,转载请查看要求,机器之心对于违规侵权者保有法律追诉权。