参与李泽南

网易有道词典一个小更新,消除了你和全球一半人类的沟通障碍

完全不懂外语的你也可以拿起手机,和老外直接对话了:甚至不需要选择彼此说着的是什么语言。

遇到看不懂的单词时,很多人会想到打开网易有道词典 app 查询。最近使用这个 app 的同学,可能会注意到一个新增的功能:

道词典的「对话翻译」功能,现在可以自动检测语言了。

除了自动识别语种,有道词典还可以实现近乎实时的「同声传译」,延迟不到一秒,而且在大多数 iOS 或安卓的智能手机上都可以实现。有了这样的技术,两个说着不同语言的人,只需要一个安装了有道词典 app 的手机,就可以进行实时顺畅的对话交流了。

这种神奇的功能,现在支持 11 个语种互相翻译,这就意味着可以覆盖全球超过一半的人口(有道词典手动选择语言互译的话,则支持 44 种语言)。

语音识别语种,用的是图像识别模型

让手机快速自动识别语种,看起来是一个简单的小功能,却大幅度提升了使用的便捷性。在这背后,研发团队投入的工作也是个有趣的故事。

目前人们每天使用的机器翻译软件中的语音翻译,一般都遵循着类似的工作流程:人口中说出的话,经过语音识别(ASR)系统转换成文字,再通过神经机器翻译模型(NMT)转换为目标语言,最后再通过语音合成(TTS)系统转换成目标语言的语音才算完成。

语音翻译的级联模型(图片来自 MSRA)。

这样一套自动流程也有手动的步骤——需要预先由使用者选好转换语言的类型。有道新上线的功能直接省去了这一步骤:通过在整个级联流程的最前端加入语音活性检测(VAD)和自动语音识别技术(LID),现在你在不用切换翻译种类的情况下,就能和人即时展开对话了。

有意思的是,有道识别语音的 LID 模型,源自在图像识别领域大放异彩的 ResNet(残差神经网络)。在人工智能业内,这是一个「你必须要知道的模型」,ResNet 曾大幅刷新了 ImageNet 竞赛的记录,并启发了众多计算机视觉的新方法,但在语音领域,用 ResNet 的落地技术还比较新鲜。

为了让擅长识别图像的 AI 模型能够处理语音内容,有道开发者们对原模型进行了特殊的修改和配置。在有道词典使用的 LID 方法中,图像 RGB 的三通道输入被修改为语音的单通道,神经网络模型也被压缩到了仅有 2Mb 大小,让其可以在离线状态下识别语种。

「另外,图片输入到神经网络中时通常是固定的尺寸,但语音识别领域中,我们经常遇到的是长短不一的内容,」这一新功能的主要贡献者,有道 AI 语音算法工程师王海魏表示。「我们认为让 ResNet 识别不同大小的内容是可行的方案,因此对模型进行了修改,也获得了成功。」

在有道词典 app 上,翻译对话时语音识别的内容呈现流式过程,随着说话人输入内容的增加,机器判断准确度也在不断提高。当「置信度」到达阈值时,系统就会开始调用随后的流程开启翻译,而有道 LID 给到的语种自动识别最快可以在 0.5 秒给出结果。

由手机端侧 AI 模型启动的过程既解决了翻译准确度的问题,也优化了翻译系统的反应速度。

让手机自动识别语言的原理并不复杂,在目前的应用市场上,iPhone 在最新的 iOS 14 系统中使用了类似的技术。从效果上来看,对于带口音的对话内容,有道的识别效果要好一些。

 有道词典 app(左)和 iPhone iOS 14 系统(右)的对话翻译对比。在中文语境下,有道词典给出的结果要更好。

这还是在有道词典覆盖了用户基数更大、机型众多的安卓系统的情形下实现的。

AI 技术落地,没有想象那么简单

「一项技术的真正落地和参与数据竞赛、写论文会遭遇到的挑战完全不同,有时甚至更难,」有道 AI 语音团队负责人李庆说道。

有道的工程师们去年曾经参加了中国计算机学会、西北工业大学、上海交通大学、新加坡南洋理工大学等多家机构联合举办的 INTERSPEECH2020「口音英语语音识别技术挑战赛」。刚刚从学校毕业加入有道的吴昊、王海魏等人,仅准备了十天时间就在口音种类识别和英语语音识别两个赛道上获得了第二名、第三名的好成绩。

在比赛结束后,该团队将研究方案整理成论文发表,在基于目前最流行深度学习模型 Transformer 的技术上,研究人员开发出了一种基于端到端语音识别的口音分类算法,据了解该论文目前也被 ICASSP2021 接收。

有道参加 INTERSPEECH 2020 比赛团队发表的论文。

实验表明,有道提出的方法在测试集上达到了 72.39%的精度,在开发集上达到了 80.98%的精度。在 2020 年 INTERSPEECH 口音英语语音识别挑战赛中,研究人员提交的系统在口音识别任务中排名第二。

更重要的是,他们在比赛中使用的方案,和如今有道词典 app 中上线的功能思路相通。「研究这些属性,归根结底是希望能够提升用户在不同场景下使用产品的体验,」王海魏表示。「我们希望用户能够在遇到不同口音、不同语种的情况下都能获得更好的使用效率。」

相比打比赛,一项技术的工程落地是个长期过程。在有道 AI 团队,人们总是希望产品能够做到接近完美,LID 技术的迭代到最终上线花费了近四个月时间的打磨。

与手机自带系统不同,有道词典 app 需要适配大量不同品牌型号的手机,而其中的一部分可能配置较低,甚至有一些品牌的设备对于录音功能的调用还会存在延迟。一个小小功能的上线,背后是研发人员无数次尝试和努力。

这样的工作很复杂,但有道一直在做。

为什么有道翻译如此好用?

有道翻译拥有一个专注于技术落地的团队,其中算法团队的成员们主要根据业务的需求,调研、设计和实现各种相关算法,训练各类模型。数据团队的成员则不断挖掘高质量训练数据,并根据算法的要求,对数据进行清洗、分类、标注等工作。此外,高性能和研发团队负责优化模型训练的速度,实现推理引擎,优化服务性能,提供在线和离线的翻译能力。

有道 AI 语音团队。

在分工合作下,有道翻译提供的产品不断演进,逐渐成为了国内大量用户的首选。目前,网易有道全线产品月活跃用户 (MAU) 已经超过了 1.2 亿。

经常需要对外文翻译的同学可能会发现,百度、谷歌和有道翻译等系统在不同领域的内容上各有胜负,其实在不同领域上质量的差异,大多是由于训练语料的领域分布引起的。如果为每个领域训练专用的模型可以得到较好结果,但成本较高,如果希望一个模型能够适配多个领域,一方面可以增加训练数据,另一方面也需要在模型,或者训练过程中对领域语料的使用进行优化,如在模型训练时引入领域信息,或者训练时对某些领域的语料进行重采样等。

有道的翻译系统支持用户自定义术语表的扩展,可以根据用户提供的不同术语来实时优化翻译结果,给出正确的译文。

「我们在训练中采取了多任务学习的方式,增加了待翻译文本的领域预测,使得整个系统在翻译不同的领域时都会较好的质量,」有道 AI NLP 团队负责人王瑾玫表示。「另外,在一些对速度不太敏感的应用场景,我们探索了基于领域记忆库的实时优化算法,极大的提升了对应领域的翻译质量。」

中英文混合的内容也可以被有道词典准确识别。


自谷歌 2016 年在翻译系统中整合神经网络(GNMT)已过去近五年时间,而网易有道也紧随其后在 2017 年年初上线自研的 NMT,当前业界使用 AI 翻译的技术相比过去已经有了显著提高,但在一些真实场景中仍然能看到很多亟待解决的问题。即使是在 Transformer 被广泛使用的今天,翻译质量还有不少可以提升的空间,比如低资源甚至零资源语言的翻译质量问题,虽然在多任务学习和预训练模型方法的使用上有了改善,但还可以再进一步提升。

「使用 Transformer 模型也存在缺点,需要根据不同的任务场景进行一些优化,如在长句推理时计算量比较大,堆叠深度时模型能力难以提升,」王瑾玫说道。「因此在有道翻译上,我们对离线应用,深度模型应用等任务上都做了相应的优化。」

有道的硬件产品词典笔现在已经发展到了第三代,除了快速的翻译能力之外,还可以给你的口语发音打分。

一个学习工具,要想从 0 到 1 获得人们的青睐是一件比较困难的事情,目前在教育领域里,像有道翻译这样热门的产品为数不多。另一方面,对于有道来说,从「1 到 1.1」也是一种重要的创新。

未来,有道翻译的算法团队还会沿着应用先进技术的道路前进,让翻译系统支持更多语言,实现更高的准确率,并进一步降低翻译的延迟。

当然,他们也对新技术保持开放。「除了经典方法和流行的技术之外,我们也一直在关注那些未来几年才有希望落地的技术。」李庆说道。

*应要求,文中所列人员皆用化名。*

产业语音识别NLP网易有道网易
相关数据
神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

推理引擎技术

推理机是实施问题求解的核心执行机构,常见于专家系统。它是对知识进行解释的程序,根据知识的语义,对按一定策略找到的知识进行解释执行,并把结果记录到动态库的适当空间中去。

多任务学习技术

推荐文章
暂无评论
暂无评论~