微软基于短语的神经机器翻译方法NPMT:不使用任何注意机制

谷歌前不久在 arXiv 上发表论文《Attention Is All You Need》,提出一种完全基于 attention 的翻译架构 Transformer,实现了机器翻译的新突破。近日,微软发布了基于短语的神经机器翻译方法NPMT, 在 IWSLT 2014 德英翻译任务上取得了顶尖成果。此外,论文中提到NPMT 不使用任何注意机制。

论文:Neural Phrase-based Machine Translation


论文链接:https://arxiv.org/abs/1706.05565

摘要

在此论文中,我们提出了基于短语的神经机器翻译(NPMT)。我们的方法通过 Sleep-WAke 网络(SWAN)明确地建模输出序列中的短语结构。SWAN 是近期提出的一种基于分割的序列模型方法。为了减轻 SWAN 所需的单调的校准,我们提出了一种新的层来完成输入序列的局部重排序。我们的方法表明,NPMT 在 IWSLT 2014 德英翻译任务上取得了顶尖成果,且不使用任何注意机制。我们也观察到新方法在输出语言中产生了有意义的短语。

1.导语

人类语言总是表现出强大的组合模式。例如下面的句子,「machine learning is part of artificial intelligence」,如果我们把它拆解成[machine learning] [is] [part of] [artificial intelligence],就变得非常容易理解。[]框内的单词通常被视为「短语」,短语有自己的含义,在其他语境中也能被重复使用。

在此论文中,我们开发了一种神经机器翻译方法能清楚地在输出语言上建模短语。传统基于短语的统计机器学习方法已经表示这种方法超越了基于单词的方法(Koehn et al., 2003; Koehn, 2009; Lopez, 2008),另一方面,现代神经机器翻译方法 (Sutskever et al., 2014; Bahdanau et al., 2014; Luong et al., 2015)还没有清楚的看待短语,但仍能有惊人的成果。我们的基于短语的神经机器翻译方法尝试探索两者的结合。NPMT 建立在Sleep-WAke 网络(SWAN)之上,这是一种基于分割的序列建模技术(Wang et al., 2017)。在本文中,分割部分被作为目标序列中的短语。然而,SWAN 在输入与输出之间需要繁琐的校准,在机器翻译中是不这样的。为了解决这个问题,我们在SWAN 下面引入了一个新层,能在输入序列上完成局部重排序。初步的实验表明,NPMT 在 BLEU 得分上超越了基于注意的NMT 方法。

该论文组织结构如下。章节2展示了基于短语的神经机器翻译模型,章节3 证明了我们的方法在IWSLT 2014 的德英翻译任务上的有效性。在章节4 中我们总结了该工作,并进行了讨论。


图1:符号$表示段的结尾,随着x1(输出{y1;$})和y1的运动(输出{y2,y3;$}),SWAN输出特定的段,此时x2、x3和x5休眠(输出空段{$})


图3:NPMT 的整体架构


表1:在测试集上的翻译结果。MIXER(Ranzato et al.,2015)使用卷积编码器和简单的注意机制。Wiseman & Rush (2016) 的 LL(使用对数似然的注意模型)、 BSO(beam search optimization)和Bahdanau et al.(2017)的LL、RF-C+LL 、 AC+LL使用一个带有注意机制的单层 GRU 编码器和解码器(RF-C+LL 和AC+LL 是actor-critic 算法结合 LL 的不同设定)。


表2:德语-英语翻译输出隔断示意,其中圆点代表分段边界。可以看到,其中存在很多有意义的解码结果。

理论微软邓力论文理论