不以英语为中心,百种语言互译,FB开源首个单一多语言MT模型
机器翻译(MT)打破了人类之间的语言障碍。如今,平均每天需要在 Facebook 新闻提要上提供 200 亿次翻译,这得益于低资源机器翻译领域的发展以及评估翻译质量的最新进展。典型的 MT 系统需要为每种语言和每种任务构建单独的 AI 模型,但这种方法无法在 Facebook 上进行有效推广,因为人们在数十亿个帖子中发布超过 160 种语言的内容。先进的多语言处理系统能够同时处理多种语言,但由于依赖英语数据来弥合源语言和目标语言之间的差距,在准确性上会有所折中。因此,我们需要一种可以翻译任何语言的多语言机器翻译(multilingual machine translation, MMT)模型,从而更好地服务于全球近三分之二不使用英语的人们。近日,Facebook 根据多年对 MT 的研究宣布实现了一个重要的里程碑:首个单一的大规模 MMT 模型,该模型可以实现 100x100 个语言对的直接翻译,而不依赖以英语为中心的数据。这个单一的多语言模型表现得和传统双语模型一样好,并且比以英语为中心的多语言模型提高了 10 个 BLEU 点。