路 李泽南编辑

清华大学NLP组年末巨献:机器翻译必读论文列表

昨天,清华大学自然语言处理组(THUNLP)整理的机器翻译论文阅读清单在 GitHub 上上线了。对于元旦和寒假期间想要积累机器翻译背景知识、追踪前沿技术的同学来说,这份列表再合适不过了。

GitHub 链接:https://github.com/THUNLP-MT/MT-Reading-List

机器翻译(MT)是借机器之力「自动地将一种自然语言文本(源语言)翻译成另一种自然语言文本(目标语言)」的方法。使用机器做翻译的思想最早由 Warren Weaver 于 1949 年提出。时间进入二十一世纪,研究人员开发了基于神经网络语言模型。近年来,神经机器翻译已经进入了应用阶段。

2018 年即将结束,在 18 年的最后一个工作日,清华大学自然语言处理组(THUNLP)整理了一份机器翻译论文的阅读清单奉献给大家。

该项目的主要贡献者 Zonghan Yang 表示:

这份阅读清单里回顾了统计机器翻译(SMT)时代的亮点论文,并概括了近期神经机器翻译(NMT)方向下的各个子领域,其中包括:模型架构、注意力机制、开放词表问题与字符级别神经机器翻译、训练准则与框架、解码机制、低资源语言翻译、多语种机器翻译先验知识融合、文档级别机器翻译机器翻译中的鲁棒性、可视化与可解释性、公正性与多样性、机器翻译效率问题、语音翻译与同传翻译、多模态翻译、预训练方法、领域适配问题、质量估计、自动后处理、推导双语词典以及诗歌翻译。

过去三十多年来,人们见证了机器翻译的快速发展,尤其是数据驱动的方法,如统计机器翻译(SMT)和神经机器翻译(NMT),目前 NMT 占据了这个方向的主导地位。清华大学 NLP 组表示该列表目前可能还不完整,未来将继续增加论文并改进清单。

该论文列表接收内容可谓详尽。首先,对于时间不够充裕的人来说,THUNLP 为大家整理了 10 大必读论文。这十篇论文涉及统计机器学习的数学基础、机器翻译度量指标 BLEU、基于短语的统计机器翻译、Quoc V. Le 等提出的序列到序列学习方法(该方法引出了谷歌后来序列到序列(seq2seq)的 NMT 模型)、Adam 优化算法以及 Attention 机制等。

其中最新的一篇自然是谷歌大脑那篇标题吓人的《Attention Is All You Need》,该研究提出了目前广泛流行的 Transformer 机器翻译架构,详情参见机器之心的报道:

学界 | 机器翻译新突破:谷歌实现完全基于 attention 的翻译架构

在这之后,THUNLP 列出了机器翻译各细分领域的必读论文,分为统计机器学习和神经机器翻译两大类,其中最新数据已经统计到了 ICLR、AAAI 2019 在投的研究。

分类目录:

Statistical Machine Translation

  • Tutorials

  • Word-based Models

  • Phrase-based Models

  • Syntax-based Models

  • Discriminative Training

  • System Combination

  • Evaluation

统计机器翻译部分介绍了基本的模型:基于单词、短语、句法的 SMT 模型,以及训练方法和评估方法。

Neural Machine Translation

  • Tutorials

  • Model Architecture

  • Attention Mechanism

  • Open Vocabulary and Character-based NMT

  • Training Objectives and Frameworks

  • Decoding

  • Low-resource Language Translation

  •  Semi-supervised Methods 

  •  Unsupervised Methods

  •  Pivot-based Methods

  •  Data Augmentation Methods

  •  Data Selection Methods

  •  Transfer Learning & Multi-Task Learning Methods

  •  Meta Learning Methods

  • Multilingual Language Translation

  • Prior Knowledge Integration

  •  Word/Phrase Constraints

  •  Syntactic/Semantic Constraints

  •  Coverage Constraints

  • Document-level Translation

  • Robustness

  • Visualization and Interpretability

  • Fairness and Diversity

  • Efficiency

  • Speech Translation and Simultaneous Translation

  • Multi-modality

  • Pre-training

  • Domain Adaptation

  • Quality Estimation

  • Automatic Post-Editing

  • Word Translation and Bilingual Lexicon Induction

  • Poetry Translation

神经机器翻译目前是机器翻译的主流。这部分介绍了 NMT 中的模型架构、注意力机制、训练准则和框架等与具体模型训练相关的内容,还介绍了低资源语言翻译、多语言翻译、篇章翻译等具体任务相关的研究,以及关于机器翻译系统鲁棒性、可视化、可解释性、公平性等的研究。

低资源语言翻译任务由于训练数据少而难度极高。这一两年来对低资源语言翻译任务的研究逐渐增多,相关研究大多采用半监督、无监督等方式。清华大学 NLP 组在这部分介绍了半监督、无监督、数据增强、迁移学习多任务学习元学习等方法。

篇章翻译同样是机器翻译领域的困难任务。这部分介绍了 2017 和 2018 年的新研究,包括清华大学和搜狗合作发表在 EMNLP 2018 的工作。在此文中,作者提出了一个基于自注意力翻译模型 Transformer 的篇章级别翻译模型,利用丰富的上下文信息来帮助进行句子的翻译,该模型对机器翻译领域篇章级别翻译质量的提升也有贡献。

这部分还涉及自动后编辑、诗歌翻译等内容,详细内容请查看该 GitHub repo。 

前不久,清华大学 NLP 组还整理了图网络必读论文列表,参见:

清华大学孙茂松组:图神经网络必读论文列表

理论统计机器翻译神经机器翻译机器翻译
7
相关数据
搜狗机构

搜狗成立于2003年,是中国搜索行业挑战者,AI领域的创新者。目前搜狗月活跃用户数仅次于BAT,是中国用户规模第四大互联网公司。2004年8月,搜狗推出搜狗搜索,现已成为中国第二大搜索引擎。2006年6月,推出搜狗输入法,重新定义了中文输入,目前搜狗输入法覆盖超5亿用户,是国内第一大中文输入法。2017年11月9日,搜狗在美国纽约证券交易所正式挂牌上市,股票交易代码为“SOGO”,开盘价为13.00美元,市值超50亿美元。

http://corp.sogou.com/
神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

元学习技术

元学习是机器学习的一个子领域,是将自动学习算法应用于机器学习实验的元数据上。现在的 AI 系统可以通过大量时间和经验从头学习一项复杂技能。但是,我们如果想使智能体掌握多种技能、适应多种环境,则不应该从头开始在每一个环境中训练每一项技能,而是需要智能体通过对以往经验的再利用来学习如何学习多项新任务,因此我们不应该独立地训练每一个新任务。这种学习如何学习的方法,又叫元学习(meta-learning),是通往可持续学习多项新任务的多面智能体的必经之路。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

统计机器翻译技术

随着统计学的发展,研究者开始将统计模型应用于机器翻译,这种方法是基于对双语文本语料库的分析来生成翻译结果。这种方法被称为统计机器翻译(SMT)

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

图神经网络技术

图网络即可以在社交网络或其它基于图形数据上运行的一般深度学习架构,它是一种基于图结构的广义神经网络。图网络一般是将底层图形作为计算图,并通过在整张图上传递、转换和聚合节点特征信息,从而学习神经网络基元以生成单节点嵌入向量。生成的节点嵌入向量可作为任何可微预测层的输入,并用于节点分类或预测节点之间的连接,完整的模型可以通过端到端的方式训练。

序列到序列技术

多任务学习技术

图网技术

ImageNet 是一个计算机视觉系统识别项目, 是目前世界上图像识别最大的数据库。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

推荐文章
暂无评论
暂无评论~