2018/09/24 17:28

Ankur Bapna等作者路刘晓坤编译

Google AI提出「透明注意力」机制，实现更深层NMT模型

当前最优的 NMT 模型都遵循结合注意力的 seq2seq 模型的范式，但与用于文本和视觉任务的卷积模型相比，NMT 模型仍然太浅。来自 Google AI 的研究者提出对注意力机制进行修改，其类似于创建沿着编码器层的加权残差连接，使误差信号可以同时沿着编码器层和时间进行传播。「透明注意力」使得更深层 NMT 模型的训练成为可能，并使模型在 WMT'14 英语-德语翻译和 WMT'15 捷克语-英语翻译任务上取得了 0.7-1.1 的 BLEU 值提升。

近年来，机器翻译系统的质量突飞猛进，这要归功于神经序列到序列模型的出现。尽管当前最优的几个模型各不相同，包括 Transformer (Vaswani et al., 2017)、卷积 seq2seq 模型 (Gehring et al., 2017) 和 LSTM (Chen et al., 2018)，但所有这些模型都遵循注意力机制 (Bahdanau et al., 2015) 结合 seq2seq 模型的范式。

尽管变革性新架构为机器翻译系统的质量提升做出了很大贡献，但更大模型容量的重要性不容忽视。机器翻译转向神经模型后，NMT 质量的第一个重大改进就是由于模型容量的巨大提升 (Zhou et al., 2016; Wu et al., 2016)。尽管存在多种方法可以提升模型容量，但事实证明更深的模型能够提取更具表达性的特征 (Mhaskar et al., 2016; Telgarsky, 2016; Eldan and Shamir, 2015)，给视觉任务带来之前数年未曾有过的显著提升 (He et al., 2015; Srivastava et al., 2015)。

尽管深层模型很明显是一条康庄大道，但这方面的研究通常受限于计算能力的约束。此外，深层模型常常受到梯度消失或爆炸等训练问题的困扰。这些问题在循环架构中捕捉长距离依赖的语境中得到了研究 (Pascanu et al., 2012; Hochreiter et al., 2001)，但在多于 8 层的 Transformer 或 LSTM seq2seq 模型中解决这些缺陷尚未得到充分研究 (Wang et al., 2017; Barone et al., 2017; Devlin, 2017)。

这篇论文为基于 Transformer 和 LSTM 的模型训练极端深层编码器，从而在训练用于翻译的深层模型方面迈出了第一步。随着编码器深度逐渐增加，原始 Transformer 模型完全无法训练。研究者还观察了 LSTM 模型的次优性能，认为其与训练方面的问题有关。为便于优化，研究者提出对注意力机制进行增强，实现对更深层模型的训练，该方法在 WMT'14 英语-德语翻译和 WMT'15 捷克语-英语翻译任务上取得了一致进展。

论文：Training Deeper Neural Machine Translation Models with Transparent Attention

论文链接：https://arxiv.org/pdf/1808.07561v1.pdf

摘要：尽管当前最优的 NMT 模型（如 RNN seq2seq 和 Transformer）拥有大量参数，但与用于文本和视觉任务的卷积模型相比，它们仍然太浅。本研究尝试训练深度为原来 2-3 倍的 Transformer 和 Bi-RNN 编码器用于机器翻译任务。我们提出对注意力机制进行简单的修改，以简便更深模型的优化，这种修改使得模型在基准 WMT'14 英语-德语翻译和 WMT'15 捷克语-英语翻译任务上取得了 0.7-1.1 的 BLEU 值提升。

透明注意力（Transparent Attention）

注意力对前向传播的影响因直观的可视化和语言学阐释而受到广泛关注，但它对梯度流的影响却常常被忽略。考虑没有注意力机制的原始 seq2seq 模型。为了将解码器最后一层的误差信号传播到编码器的第一层，信号必须穿过解码器中的多个时间步，通过编码器-解码器瓶颈，再穿过编码器中的多个时间步，才能到达需要更新的参数。每个时间步都会有一定量的信息损失，尤其是在训练早期。注意力 (Bahdanau et al., 2015) 创建了一条从解码器到达编码器第一层的直接路径，确保信号随时间的高效传播。这一内部连接性的增强显著缩短了信用分配（credit assignment）路径 (Britz et al., 2017)，使得网络不易受到梯度消失等优化问题的影响。

但对于更深的网络，误差信号还需要通过编码器层。为此我们提出了一种注意力机制的扩展，类似于创建沿着编码器深度的加权残差连接，这使得误差信号可以同时沿着编码器层和时间进行传播。使用可训练权重，这一「透明」注意力可使模型根据训练阶段灵活调节编码器中不同层的梯度流。

实验设置

我们在标准 WMT'14 英语-德语数据集上进行模型训练。在将句子分解成类似于 (Sennrich et al., 2016) 的子词单元之前，先使用 Moses 分词器将对每个句子执行分词操作。我们对每个语言对使用一个包含 32k 个单元的共享词汇表。我们报告了该方法在 newstest 2014 上的所有结果，并使用 newstest 2012 和 newstest 2013 的组合作为验证集。为了验证结果，我们还在 WMT'15 捷克语-英语翻译任务上评估了该模型。这里我们使用 newstest 2013 作为验证集，newstest 2015 作为测试集。为评估模型，我们计算了 tokenized、true-case 输出的 BLEU 值。我们报告了 21 个检查点窗口的平均收敛后得分（mean postconvergence score），该得分按照 (Chen et al., 2018) 的方法使用开发性能获取。

基线实验

我们的研究基于两个架构：Transformer (Vaswani et al., 2017) 和 RNMT+ (Chen et al., 2018)。我们选择了二者的较小规模版本，以在单个 GPU 上拟合层数多达 20 层的深层编码器。我们的所有模型都在 8 个 P100 GPU 上进行同步训练，并使用 Adam (Kingma and Ba, 2014) 进行优化。我们对这两个架构各训练了四个模型：具备 6、12、16、20 个编码器层。我们对所有的 Transformer 和 RNMT+ 模型分别使用 6 和 8 个解码器层。我们还报告了标准 Transformer Big 和 RNMT+ 的性能（详见 (Chen et al., 2018)），便于与更高容量的模型进行对比。

Transformer：我们使用 Transformer 基础模型的最新版本，(Chen et al., 2018) 的实现。我们修改了学习率方案，将学习率设置为 3.0，使用了 40000 个预热步。

RNMT+：我们基于 (Chen et al., 2018) 的设置实现了英语-德语 RNMT+ 模型的较小版本，编码器和解码器各有 512 个 LSTM 节点。

图 1：在 WMT 14 En→De 上训练的 6 层 Transformer（蓝色）与 20 层 Transformer（红色）的 Grad-norm ratio (r_t) vs 训练步 (t) 曲线。

图 2：在 WMT 14 En→De 训练的 6 层 RNMT+（蓝色）与 20 层 RNMT+（红色）的 Grad-norm ratio (r_t) vs 训练步 (t) 曲线。

表 1：各种版本的 Transformer 模型在 En→De newstest 2014 任务上取得的 BLEU 值。* 表示模型无法训练。

表 2：各种版本的 Transformer 模型在 Cs→En newstest 2015 任务上取得的 BLEU 值。* 表示模型无法训练。

图 3：使用透明注意力的 20 层 Transformer 模型的 Grad-norm ratio (r_t) vs 训练步 (t) 曲线。

图 4：训练过程中，20 层 Transformer 编码器学得的注意力权重 s_i,6 的变化。

表 3：RNMT+ 模型在 En→De newstest 2014 任务上取得的 BLEU 值。* 表示模型无法训练。

表 4：RNMT+ 模型在 Cs→En newstest 2015 任务上取得的 BLEU 值。* 表示模型无法训练。

理论论文EMNLPEMNLP 2018谷歌注意力机制机器翻译

相关数据

权重技术

线性模型中特征的系数，或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0，则相应的特征对模型来说没有任何贡献。

来源：Google AI Glossary

神经机器翻译技术

2013 年，Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络（CNN）将给定的一段源文本编码成一个连续的向量，然后再使用循环神经网络（RNN）作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译（NMT）的诞生；神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型，而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外，RNN 应该还能得到无限长句子背后的信息，从而解决所谓的「长距离重新排序（long distance reordering）」问题。

来源：机器之心

基准技术

一种简单的模型或启发法，用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

来源：Google ML Glossary

参数技术

在数学和统计学裡，参数（英语：parameter）是使用通用变量来建立函数和变量之间关系（当这种关系很难用方程来阐述时）的一个数量。

来源：维基百科

收敛技术

在数学，计算机科学和逻辑学中，收敛指的是不同的变换序列在有限的时间内达到一个结论（变换终止），并且得出的结论是独立于达到它的路径（他们是融合的）。通俗来说，收敛通常是指在训练期间达到的一种状态，即经过一定次数的迭代之后，训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说，如果采用当前数据进行额外的训练将无法改进模型，模型即达到收敛状态。在深度学习中，损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变，暂时形成收敛的假象。

来源：Wikipedia Google ML glossary

学习率技术

在使用不同优化器（例如随机梯度下降，Adam）神经网络相关训练中，学习速率作为一个超参数控制了权重更新的幅度，以及训练的速度和精度。学习速率太大容易导致目标（代价）函数波动较大从而难以找到最优，而弱学习速率设置太小，则会导致收敛过慢耗时太长

来源：Liu, T. Y. (2009). Learning to rank for information retrieval. Foundations and Trends® in Information Retrieval, 3(3), 225-331. Wikipedia

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集（或特征）的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的，这让「神经网络在执行预测任务时可以更多关注输入中的相关部分，更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时，源句子中仅有少部分是相关的；因此，可以应用一个基于内容的注意力机制来根据源句子动态地生成一个（加权的）语境向量（context vector）, 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

来源：机器之心

验证集技术

验证数据集是用于调整分类器超参数（即模型结构）的一组数据集，它有时也被称为开发集(dev set)。

来源：Wikipedia

机器翻译技术

机器翻译（MT）是利用机器的力量「自动将一种自然语言（源语言）的文本翻译成另一种语言（目标语言）」。机器翻译方法通常可分成三大类：基于规则的机器翻译（RBMT）、统计机器翻译（SMT）和神经机器翻译（NMT）。

来源：机器之心

长距离依赖技术

也作“长距离调序”问题，在机器翻译中，比如中英文翻译，其语言结构差异比较大，词语顺序存在全局变化，不容易被捕捉

来源：机器之心

序列到序列技术