自然语言处理领域的进展(二)机器翻译

本文译自:Julia Hirschberg, Christopher D. Manning. Advances in Natural Language Processing. Science Magazine 2015. vol. 349 no. 6245 (261-266). 译者:曹雨,汪林杰(哈工大SCIR硕士生)。


通常来讲,对于语言的熟练程度是一个人博学的标志。虽然在如今这个由科学和机器主导的现代化时代,这项技能的社会地位有所下降,但是不同语言之间的翻译仍然至关重要,而且机器翻译也可能是实现计算机辅助人与人交互的最重要的途径。此外,计算机对于不同语言之间的翻译能力是一个对于机器智能的完美测试:正确的翻译不仅需要对句子的分析与生成,也需要具备像人类一样对世界知识和上下文的理解,从而解决自然语言表达上的歧义问题。比如,法语词汇“bordel”直译为“妓院”,但是如果有人说“My room is un bordel,”那么一个翻译系统必须具有足够多的知识,才能知道他不太可能是在自己的房子里经营一家妓院,而是在表达“My room is acomplete mess.”

机器翻译是计算机最早的非数值应用之一,于20世纪50年代末开始被广泛地研究。然而,早期由人工构建的基于语法的系统只取得了非常有限的进展。转变发生在20世纪90年代初期,那时IBM的研究人员获取了大量互为翻译的英语—法语句对(也即:平行文本),并构建了双语加拿大议会文件文本(proceedings of the bilingual Canadian Parliament)。这些数据使得他们能够收集到单词翻译和单词序列等统计信息,从而构建机器翻译的概率模型5。

20世纪90年代后期的机器翻译研究较为沉寂,而伴随着新千年而来的是丰富的互联网文本数据,其中包括具有相当规模的平行文本;更充足廉价的计算资源,以及一种基于短语的统计机器翻译新思路6。与逐词翻译不同,短语模型的关键在于考虑到词组的翻译通常与逐词翻译的组合不同。例如,日文中的“水色”(mizu iro)字面上是“water color”这两个词的序列,但这并不是它正确的意思(也不是指一种绘画);它真正表示的是一种浅天蓝色。谷歌的Franz Och在开发谷歌翻译系统中使用了这种基于短语的机器翻译。

这项技术使我们今天可以在许多语言对之间实现自由即时的翻译,但是它依然会产生只能用于确定文本主题的翻译。然而,一些非常有前景的工作正在持续推动机器翻译的发展。很多后续的研究致力于在机器翻译系统中更好地利用自然语言的句子结构(即:语法)7,8。同时,研究者们也在努力构建对于语言的更深层次语义表示9,从而实现语义层次的机器翻译。

最后,在过去的一年中,我们见证了基于深度学习的序列建模方法在机器翻译领域取得的惊人成果。深度学习的核心思想是,如果我们可以训练一个具有多个表示层次的模型来优化最终目标,例如翻译质量,那么这个模型自身可以为手头任务学习有用的中间表示。人们在神经网络模型中进行了探索。在神经网络中,信息存储在实值向量中,其中向量之间的映射包含一个由矩阵乘积构成的线性变换,以及一个非线性变换,如sigmoid函数,将矩阵乘积的输出映射至[-1, 1]区间内。在构建大规模神经网络模型时,往往要使用大量的并行计算资源,如图形处理单元(GPU)。对于机器翻译,目前的研究主要集中于一类特定的,采用“长短时记忆”(long short-term memory,LSTM)运算单元的循环神经网络,LSTM运算单元能够更好的保存一个句子中从前到后的上下文信息10,11(图 2)。神经网络的分布式表示往往可以有效地捕获微妙的语义相似性,而且神经机器翻译系统在一些语言对或数据集上已经取得了当前最好的结果12,13。

图 2 一个多层的循环神经机器翻译系统10。

该系统在双语平行语料上进行训练,通过学习每个词的向量表示以及内部的参数矩阵来对翻译质量进行优化。训练之后所得到的网络则可用于对新句子的翻译。箭头表示一个运算单元,包括一个矩阵乘法以及一个非线性变换。图中的实数向量看起来维度比较低,而实际上可能是1000维。该循环网络首先将源句子的语义进行编码(左侧,蓝色)。它们保存着部分句子的中间状态,每当新的词被读入,它们的信息将被更新(横向箭头)。通过多层的叠加,从而构成一个深度的循环神经网络。深度的增加能够提升该模型的学习、泛化和记忆能力。当到达句子的结尾符<EOS>时,该网络开始顺序产生每一时刻的翻译输出(使用一个多类logistic回归模型)。在翻译生成阶段,上一时刻生成的翻译词将作为当前时刻的输入。根据已经存储的隐层状态以及此输入,模型将计算得到下一个翻译词。该过程在生成<EOS>符时结束。

在机器翻译中,一个尚未取得充分研究的子领域是如何对篇章信息进行更深入地建模,从而对句子序列进行更自然地翻译—尽管相关的研究已经开始出现14。最后,机器翻译未必是一个仅由机器来完成的任务。它也可以被当作一种由计算机为人类提供协助的方式15。在这类系统中,机器智能的目标是提供人机接口,从而为人类的输入提供有效的建议以及富有成效的反馈,而不是完全替代人工翻译从业者。

REFERENCES AND NOTES

4. Kaggle, www.kaggle.com.

5. P. F. Brown, S. A. Della Pietra, V. J. Della Pietra, R. L. Mercer, Comput. Linguist. 19, 263–311 (1993).

6. P. Koehn, F. J. Och, D. Marcu, “Statistical phrase-based translation,” in Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (Association for Computational Linguistics, Stroudsburg, PA, 2003), pp. 48–54.

7. D. Chiang, “A hierarchical phrase-based model for statistical machine translation,” Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (Association for Computational Linguistics, Stroudsburg, PA, 2005), pp. 263–270.

8. M. Galley, M. Hopkins, K. Knight, D. Marcu, “What’s in a translation rule?” in Proceedings of the Human Language Technology Conference of the North American Chapter of the Association for Computational Linguistics (HLT/NAACL 2004) (Association for Computational Linguistics, Stroudsburg, PA, 2004).

9. B. Jones, J. Andreas, D. Bauer, K. M. Hermann, K. Knight, “Semantics-based machine translation with hyperedge replacement grammars,” in Proceedings of COLING 2012 (Technical Papers, The COLING 2012 Organizing Committee, Mumbai, India, 2012), pp. 1359–1376.

10. I. Sutskever, O. Vinyals, Q. V. Le, “Sequence to sequence learning with neural networks,” in Advances in Neural Information Processing Systems 27 (NIPS 2014), Z. Ghahramani, M. Welling, C. Cortes, N. D. Lawrence, K. Q. Weinberger, Eds. (Curran Associates, Red Hook, NY, 2014), pp. 3104–3112.

11. D. Bahdanau, K. Cho, Y. Bengio, “Neural machine translation by jointly learning to align and translate,” http://arxiv.org/abs/1409.0473 (2015).

12. M.-T. Luong, I. Sutskever, Q. V. Le, O. Vinyals, W. Zaremba, “Addressing the rare word problem in neural machine translation,” http://arxiv.org/abs/1410.8206 (2015).

13. S. Jean, K. Cho, R. Memisevic, Y. Bengio, “On using very large target vocabulary for neural machine translation,” http://arxiv.org/abs/1412.2007 (2015).

14. S. Stymne, C. Hardmeier, J. Tiedemann, J. Nivre, “Feature weight optimization for discourse-level SMT,” in Proceedings of the Workshop on Discourse in Machine Translation (DiscoMT) (Association for Computational Linguistics, Stroudsburg, PA, 2013), pp. 60–69.

15. S. Green, J. Chuang, J. Heer, C. D. Manning, “Predictive translation memory: A mixed-initiative system for human language translation,” in Proceedings of the 27th Annual ACM Symposium on User Interface Software and Technology, Honolulu, HI, 5 to 8 October 2014 (Association for Computing Machinery, New York, 2014), pp. 177–187.


本文来源于哈工大SCIR

原文链接点击即可跳转


入门
暂无评论
暂无评论~
返回顶部