这是搜狗继 WMT 2017 机器翻译顶级比赛夺冠之后,再次在翻译领域中获得了全球顶级比赛的冠军。在比赛结束后不久,我们找到了搜狗语音交互技术中心首席科学家,语音技术负责人陈伟,以及带队参赛的搜狗语音机器翻译负责人王宇光,他们向我们介绍了参赛团队在比赛中夺冠的技术,以及搜狗近年来在机器翻译、语音识别方面的发展。
图中左侧:王宇光;右侧:陈伟。
贴近现实的赛制
作为机器翻译领域的重要比赛,IWSLT 于 2004 年首次举办,今年已是第 15 届了。每年 IWSLT 竞赛的翻译语言都有所不同,2018 年的评测方向是英语-德语的语音翻译能力,其中分为 Baseline Model 和 End-to-End(端到端模型)两个赛道,Baseline Model 赛道主要评测语音翻译的流水线方案,输入语音先通过语音识别系统得到语音识别结果,随后通过机器翻译系统生成译文。流水线方案是业内效果最好的语音翻译解决方案,目前市场上的商用机器同传、翻译机等语音翻译类产品几乎都采用了类似的方法。
在本次评测中,在训练集、测试集相同的情况下,搜狗在 Baseline Model 的系统上取得了 28.09 的 BLEU(数值越大质量越好),超越第二名达 1.6 分。
在赛会的官方网站上,搜狗与清华大学组成的团队(TIIC)获得了 Baseline 方向的最高分。
此外,这次比赛采用的数据集可谓非常贴近实际:其用于训练的数据集包括部分 TED 演讲的英语+德语翻译内容,以及从 WMT 比赛中出现的英语-德语数据,和一些双语字幕电影的数据,共构成了 6000-7000 万句对。而测试集中则包括来自英国、欧洲、印度等各个国家的英语演讲者,存在噪声、口音、自由表达等复杂语音现象,同时语言中存在大量领域专有名词和口语化的表达(如:大量语气词、错误语法表达等),具有极强的现实程度和挑战性。
参赛历程
据搜狗的研究人员介绍,这次比赛从今年 6 月底开始释放训练数据集,9 月份提交结果,随后又在 10 月提交相关技术的论文,共经历了四个月的时间。本次参与比赛的团队成员均来自公司的语音技术部门,分别负责语音识别、机器翻译和数据处理等工作。
而在用于训练数据集的硬件上,搜狗也投入了不少资源。「机器翻译任务中,我们使用了更多的工作量。」王宇光介绍道,「在模型训练时,我们使用 10 到 15 台 8GPU 的机器,每一轮都需要四到五天。实际上,我们进行了好几轮的模型迭代-更新-训练。」
在语音识别一侧,搜狗在这次比赛中用到了三个不同的模型,包括 TDNN、BiLSTM 和 Deep-CNN 融合输出结果。其中除了 BiLSTM 只用了 5 层,其他的 CNN 和 TDNN 都有二十层以上的深度。
搜狗的文本翻译一直处于国内领先的位置,在去年 7 月谷歌 Transformer 论文推出后不久,这家公司的开发人员很快就将这一技术复现,并在两个月后将其推至线上,应用于产品中。随后这家公司又花了两个月左右的时间,把最新的离线 Transformer 技术推到了翻译机设备上。
在本届 IWSLT 比赛中,搜狗的团队在 Baseline Model 赛道上获得了第一名的成绩,讯飞则在端到端的比赛中成为头名。
对于为何参加常规 Pipeline 比赛,而没有参与端到端比赛的问题,陈伟表示搜狗更加注重面向应用的产品,这样的成绩也更有意义:「(从语音直接翻译成文本的)端到端方法在未来或许是一个有希望的方向,但是我个人觉得短期内还是先做好语音、机翻的端到端更可行、更可靠一些。我们现在正在研究的端到端语音识别,中文的语音到中文文本之间在还有很多问题没有解决。如果现在试图开发中文语音进,英文文本出的产品,其实又会把问题推向新的难度。」
面向应用的技术
在 NLP 领域里,「AI 同传技术」是最近人们热议的话题。其实,搜狗在今年 1 月份就推了英译中的机器同传产品。目前这款产品已经达到了商用标准,最近也在中国网球公开赛、游泳世界杯总决赛等活动中得到了应用。搜狗表示,目前的 AI 同传翻译技术主要可以进行英译中翻译任务,是完全由机器完成的。
搜狗的语音同传技术,甚至出现在了 10 月 25 日在武夷山开幕的全国机器翻译研讨会上。
尽管目前的机器翻译和语音识别已经达到了不错的效果,搜狗的研究人员认为,目前的行业内还面临着一些挑战。「专业领域的适配是一个很大的问题,」陈伟表示,「但是针对特别严重的中英混输现象,目前业界解决的还不是很好。特别是在科技会议中,演讲人中英文夹杂的情况非常严重,这对于机器同传是很大的考验。」
在交流的过程中,搜狗的研究人员表示,因为IWSLT的最终成绩是在会议期间公布,但在公布成绩前,搜狗对结果是非常有信心的。在未来,搜狗还将把自己的能力投放到更多新产品中,并将自己的语音翻译置入 vivo、oppo 等合作伙伴的手机里。在年底,搜狗还将推出自己的全新产品。
「搜狗是一家强技术驱动的公司,适合工程师发挥自己的能力。」陈伟介绍道,「我们在技术研发的过程中,很早就会就在考虑新研究的落地。所以我们的产品上线周期非常短。很多自有产品,如同传系统,基本上有一些新的结果马上就会上线。」