路 思源作者

「有道翻译王2.0 Pro」面世,有道展示AI能力

9 月 6 日下午,网易有道在京举办「2018 网易有道开放日暨智能翻译硬件二代发布会」,介绍了有道的 AI 技术及在开放赋能方面所做的努力,并现场发布了一款 AI 硬件新产品:有道翻译王 2.0 Pro

有道翻译王 2.0 Pro


此时,距离 2017 年 10 月有道第一代翻译硬件「翻译蛋」的面世已过去了将近一年,由网易总裁丁磊亲自命名的「翻译王」有何不同呢?

与第一代产品有道翻译蛋相比,翻译王增设了英日韩三大常用外语与中文的离线互译功能,在线语音互译的语言包也从 27 种拓展为 43 种,覆盖 191 个国家和地区。同时,翻译王结合了 OCR 识别技术,支持 7 种语言离线拍照翻译、21 种语言在线拍照翻译,是目前市面上拍照翻译支持语种最多的翻译机。此外,翻译王还添加了语音助手的功能。


近年来,翻译市场愈来愈热,从百度、有道、腾讯、搜狗等多家科技公司投入大量资金、精力做机器翻译引擎,到科大讯飞、搜狗、有道等纷纷发布智能翻译机,这个市场备受瞩目。

翻译APP那么多,为什么还要做翻译硬件?


 需求。任何一个产品的出现必然是因为有这个市场需求。相比翻译硬件,翻译APP自然更加便携,但这也有其劣势,即使用流程繁琐,对不熟悉智能手机操作的人群不友好;用户担心使用手机翻译可能泄露隐私;在拾音方面不够专业。


盈利。2016 年讯飞晓译翻译机卖了 7 万台,价格将近 3000 元。在如此高的售价下取得了可观的出货量,我们认为这或许是一个可以进入的市场,毕竟年出货量在 10 万台以上的智能硬件产品是不多的。」此前网易有道副总裁吴迎晖在接受机器之能的采访时表示。截至 9 月 6 号发布会当天,有道翻译蛋的销量超十万台。网易有道副总裁刘韧磊称「翻译机是有道补齐语言翻译服务版图的重要一环」。

网易有道副总裁刘韧磊发布智能翻译硬件二代

技术


网易有道首席科学家介绍了有道的技术实力。有道的研究和应用围绕自然语言处理和理解展开。

神经机器翻译


2008年有道推出机器翻译服务,从当时流行的 SMT(统计机器翻译)技术,到2017年4月网易有道和网易杭州研究院历时两年合力自主研发的"神经网络翻译" (NMT) 技术正式上线,有道一直深耕机器翻译领域。据介绍,有道在新闻领域测试集上的 BLEU 值评测结果优于两个国际引擎。机器之心就有道的神经机器翻译技术进行了采访,得知有道的神经机器翻译技术(YNMT)一开始采用的是基于 RNN 的 Encoder-Decoder 架构,现在使用的是 Transformer 架构,但是内部机制有所调整。有道首席科学家段亦涛举例表示,有道在模型结构方面,把multi-head attention做了一些改变,加了门控机制,从而提升原始模型的性能。有道CEO周枫表示数据源很关键,有道的数据源跟其他家有所不同,有道的数据量在行业中算是比较大的。据介绍,有道会持续积累语料,并进行加工和清理,同时在训练过程中采用不一样的方式来使用语料(至于什么样的方式,有道方面暂未透露)。机器学习模型的性能不仅取决于模型本身,还取决于训练次数和训练方法。 

有道和其他两个机器翻译引擎在新闻领域测试集上的评测结果。

基于 OCR 的图像翻译方案


光学字符识别(OCR)应用非常广泛,翻译王即利用 OCR 技术实现拍照翻译的功能。此外,在有道的其他产品中也有这项技术的身影,比如有道云笔记的 OCR 文本识别功能。


有道的 OCR 技术支持多语种、多角度、横竖斜混合识别,以及手写识别。该项技术主要涉及到计算视觉,它会先使用边界框定位文字出现的区域,再将这一小块区域分割下来。随后不同的图像块会馈送到图像识别系统,并转化为文字。接下来有道就能对这些文字做额外的一些处理,如神经机器翻译等。值得注意的是,有道还会采用非常多文字排版方面的技术,因此经翻译后的文字可按照原文档的格式重新排列。 


语音识别、语音合成技术


有道的多语种语音识别、语音合成技术可以实现汉语、英语、日语、韩语、葡萄牙语的语音合成。此外,只需提供 10 分钟的录音,有道语音合成技术(TTS)就能模拟出原声,合成效果与原声真假难辨,令人眼前一亮。另外,有道 AI 的终端侧离线技术也有重大进步,离线神经网络翻译、离线语音识别和离线文字识别三大技术更是在此次推出的有道翻译王 2.0 Pro 产品中率先应用,并通过智云平台同步开放给业内开发者。


随后,有道 AI 团队还分享了基于有道整体技术输出平台——有道智云的「AI+三大行业解决方案」,以帮助教育、政企、硬件厂商三大行业解决痛点问题。


有道未来的研发方向是:

  • 支持更多语言
  • 更深入的自然语言理解
  • 识别更多场景
  • 深耕教育+AI


网易高级副总裁、网易有道 CEO 周枫认为智能硬件是互联网面向消费新场景的设备延伸,有道智云则是面向合作伙伴的整合优化服务,强化这两部分能够使有道AI产品矩阵的布局和扩充更为稳健。

有道翻译王试用

机器之心简单试用了这款产品。在主界面上,我们可以直接进入语音翻译、拍照翻译和语音助手等核心功能。整体来看,翻译王中文到英文的语音翻译有非常高的准确度和反应速度,不论是离线翻译还是在线翻译。其它的英中语音翻译、语音助手和拍照翻译效果也都非常好,但还是有一些提升的空间。

我们测试了一些中文语句,基本上只要语音识别准确,它翻译的英文句子就非常合理。此外语音翻译有离线和在线两种模式,即使是在离线的情况下,长句子的翻译也非常优秀。但我们感觉整个语音翻译的局限可能还是在语音识别这一环节,如果希望识别准确度高,我们需要发音较为标准,语速较为平缓。不过关注协同发音的语音识别也正是目前技术上很难解决的。

对于拍照翻译,由于翻译王适合在旅游场景下使用,它对于街牌、菜单和标识语等非常敏感,但是对于其它如专业书籍、论文等内容识别与翻译则并不完美。这当然与翻译王的应用场景有非常大的关系,论文也不需要使用它来翻译,但这确实涉及到密集文字的定位、识别与排版。因此总体而言,翻译王在简单任务与场景下表现良好,但在复杂任务上仍有待提高。

上图展示了使用翻译王识别「花书」的封面,它能将翻译的文字重新排版并覆盖原始图像。

最后,翻译王的语音翻译确实给人以惊艳的感觉,它翻译出来的语句不论是在语法还是在句型都没有什么问题,它的中英翻译准确度与反应速度不愧是「专业八级水准」。

产业智能硬件翻译王有道
2
暂无评论
暂无评论~