作者李泽南

搜狗击败讯飞阿里,获IWSLT大赛冠军:专访获胜团队

在 10 月 30 日于比利时布鲁日结束的 IWSLT(International Workshop on Spoken Language Translation) 国际顶级口语机器翻译评测大赛上,搜狗击败了讯飞、阿里等众多国内外强大对手,获得了 Baseline Model(基线模型)比赛的冠军。

这是搜狗继 WMT 2017 机器翻译顶级比赛夺冠之后,再次在翻译领域中获得了全球顶级比赛的冠军。在比赛结束后不久,我们找到了搜狗语音交互技术中心首席科学家,语音技术负责人陈伟,以及带队参赛的搜狗语音机器翻译负责人王宇光,他们向我们介绍了参赛团队在比赛中夺冠的技术,以及搜狗近年来在机器翻译语音识别方面的发展。

图中左侧:王宇光;右侧:陈伟。

贴近现实的赛制

作为机器翻译领域的重要比赛,IWSLT 于 2004 年首次举办,今年已是第 15 届了。每年 IWSLT 竞赛的翻译语言都有所不同,2018 年的评测方向是英语-德语的语音翻译能力,其中分为 Baseline Model 和 End-to-End(端到端模型)两个赛道,Baseline Model 赛道主要评测语音翻译的流水线方案,输入语音先通过语音识别系统得到语音识别结果,随后通过机器翻译系统生成译文。流水线方案是业内效果最好的语音翻译解决方案,目前市场上的商用机器同传、翻译机等语音翻译类产品几乎都采用了类似的方法。

在本次评测中,在训练集、测试集相同的情况下,搜狗在 Baseline Model 的系统上取得了 28.09 的 BLEU(数值越大质量越好),超越第二名达 1.6 分。

在赛会的官方网站上,搜狗与清华大学组成的团队(TIIC)获得了 Baseline 方向的最高分。

此外,这次比赛采用的数据集可谓非常贴近实际:其用于训练的数据集包括部分 TED 演讲的英语+德语翻译内容,以及从 WMT 比赛中出现的英语-德语数据,和一些双语字幕电影的数据,共构成了 6000-7000 万句对。而测试集中则包括来自英国、欧洲、印度等各个国家的英语演讲者,存在噪声、口音、自由表达等复杂语音现象,同时语言中存在大量领域专有名词和口语化的表达(如:大量语气词、错误语法表达等),具有极强的现实程度和挑战性。

参赛历程

搜狗的研究人员介绍,这次比赛从今年 6 月底开始释放训练数据集,9 月份提交结果,随后又在 10 月提交相关技术的论文,共经历了四个月的时间。本次参与比赛的团队成员均来自公司的语音技术部门,分别负责语音识别机器翻译和数据处理等工作。

而在用于训练数据集的硬件上,搜狗也投入了不少资源。「机器翻译任务中,我们使用了更多的工作量。」王宇光介绍道,「在模型训练时,我们使用 10 到 15 台 8GPU 的机器,每一轮都需要四到五天。实际上,我们进行了好几轮的模型迭代-更新-训练。」

语音识别一侧,搜狗在这次比赛中用到了三个不同的模型,包括 TDNN、BiLSTM 和 Deep-CNN 融合输出结果。其中除了 BiLSTM 只用了 5 层,其他的 CNN 和 TDNN 都有二十层以上的深度。

搜狗的文本翻译一直处于国内领先的位置,在去年 7 月谷歌 Transformer 论文推出后不久,这家公司的开发人员很快就将这一技术复现,并在两个月后将其推至线上,应用于产品中。随后这家公司又花了两个月左右的时间,把最新的离线 Transformer 技术推到了翻译机设备上。

在本届 IWSLT 比赛中,搜狗的团队在 Baseline Model 赛道上获得了第一名的成绩,讯飞则在端到端的比赛中成为头名。

对于为何参加常规 Pipeline 比赛,而没有参与端到端比赛的问题,陈伟表示搜狗更加注重面向应用的产品,这样的成绩也更有意义:「(从语音直接翻译成文本的)端到端方法在未来或许是一个有希望的方向,但是我个人觉得短期内还是先做好语音、机翻的端到端更可行、更可靠一些。我们现在正在研究的端到端语音识别,中文的语音到中文文本之间在还有很多问题没有解决。如果现在试图开发中文语音进,英文文本出的产品,其实又会把问题推向新的难度。」

面向应用的技术

在 NLP 领域里,「AI 同传技术」是最近人们热议的话题。其实,搜狗在今年 1 月份就推了英译中的机器同传产品。目前这款产品已经达到了商用标准,最近也在中国网球公开赛、游泳世界杯总决赛等活动中得到了应用。搜狗表示,目前的 AI 同传翻译技术主要可以进行英译中翻译任务,是完全由机器完成的。

搜狗的语音同传技术,甚至出现在了 10 月 25 日在武夷山开幕的全国机器翻译研讨会上。

尽管目前的机器翻译语音识别已经达到了不错的效果,搜狗的研究人员认为,目前的行业内还面临着一些挑战。「专业领域的适配是一个很大的问题,」陈伟表示,「但是针对特别严重的中英混输现象,目前业界解决的还不是很好。特别是在科技会议中,演讲人中英文夹杂的情况非常严重,这对于机器同传是很大的考验。」

在交流的过程中,搜狗的研究人员表示,因为IWSLT的最终成绩是在会议期间公布,但在公布成绩前,搜狗对结果是非常有信心的。在未来,搜狗还将把自己的能力投放到更多新产品中,并将自己的语音翻译置入 vivo、oppo 等合作伙伴的手机里。在年底,搜狗还将推出自己的全新产品。

搜狗是一家强技术驱动的公司,适合工程师发挥自己的能力。」陈伟介绍道,「我们在技术研发的过程中,很早就会就在考虑新研究的落地。所以我们的产品上线周期非常短。很多自有产品,如同传系统,基本上有一些新的结果马上就会上线。」

产业AI同传语音识别机器翻译搜狗
相关数据
搜狗机构

搜狗成立于2003年,是中国搜索行业挑战者,AI领域的创新者。目前搜狗月活跃用户数仅次于BAT,是中国用户规模第四大互联网公司。2004年8月,搜狗推出搜狗搜索,现已成为中国第二大搜索引擎。2006年6月,推出搜狗输入法,重新定义了中文输入,目前搜狗输入法覆盖超5亿用户,是国内第一大中文输入法。2017年11月9日,搜狗在美国纽约证券交易所正式挂牌上市,股票交易代码为“SOGO”,开盘价为13.00美元,市值超50亿美元。

http://corp.sogou.com/
机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

长短期记忆网络技术

长短期记忆(Long Short-Term Memory) 是具有长期记忆能力的一种时间递归神经网络(Recurrent Neural Network)。 其网络结构含有一个或多个具有可遗忘和记忆功能的单元组成。它在1997年被提出用于解决传统RNN(Recurrent Neural Network) 的随时间反向传播中权重消失的问题(vanishing gradient problem over backpropagation-through-time),重要组成部分包括Forget Gate, Input Gate, 和 Output Gate, 分别负责决定当前输入是否被采纳,是否被长期记忆以及决定在记忆中的输入是否在当前被输出。Gated Recurrent Unit 是 LSTM 众多版本中典型的一个。因为它具有记忆性的功能,LSTM经常被用在具有时间序列特性的数据和场景中。

推荐文章
暂无评论
暂无评论~