Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

基于全球首个上下文感知的机器同传模型,百度发布DuTongChuan(度同传)

近日,百度翻译团队在机器同传领域取得突破性进展,创新性地提出全球首个上下文感知的机器同传模型,并基于此发布最新的语音到语音的机器同传系统:DuTongChuan(度同传),同时发布了全球首个中文-英文演讲场景语音翻译数据集(BSTC)。经过真实测试,AI同传效果媲美人类译员!

形象地说,“度同传”就像你身边的一位虚拟同传译员,只需要带上耳机,就可以听到用自己母语播报出来的演讲内容,获得沉浸式体验。这位“虚拟译员”可以根据演讲的上下文,实时地播放连贯、准确的翻译结果。区别于此前的翻译系统,不考虑上下文环境,“播了这一句,忘了上一句”。此外,由于该系统以小程序的形式提供服务,只需要一个手机就可以收听,省去了租用同传红外设备的成本。

推全球首个上下文感知的机器同传模型 首发语音翻译数据集(BSTC)

和传统的机器同传技术不同,“度同传”使用了最新研发的感知上下文的机器同传模型。百度翻译团队创新性地提出了语义信息单元(Information Unit,IU)这一概念,将实时语音流进行IU切分并以其作为翻译单元。这一灵感来自于人类同传译员,在翻译的时候将听到的内容以语义块为单位进行翻译,既保证了翻译质量,又保证了实时性。

以下面的句子为例,如果等到句子结束再进行翻译,时间延迟会非常大。对于实时的语音流,IU检测模块会判断语音片段是否表达了一个完整的意思,比如“她说我错了”被识别为一个IU,此时进行翻译,既完整的传达了原文意思,又可以同步地跟上演讲者的节奏。

图 1:“度同传”工作流程百度提出了一种基于动态上下文的IU检测模型,将IU检测看做一个分类问题。例如下面的例子,当模型无法判断“姬”这个词是否是一个IU的结束位置(左图),会继续读入更多的词语帮助做出判断(右图)。

图 2:语义信息单元检测模型为了提升翻译的流畅度和一致性,百度提出两种解码算法:部分解码(Partial Decoding)和上下文感知解码(Context-aware Decoding),能够结合上下文信息,生成全局流畅的目标译文。而传统方法仅对当前句子做出翻译,没有结合上下文信息,译文流畅度差。

图 3:“度同传”模型框架在产品形式上,与传统的字幕投屏同传相比,“度同传”采用语音到语音的同传形式能够使用户获得与人工同传类似的沉浸式体验,将注意力更集中在演讲者与演讲内容本身。此外,该系统具有高质量、高流畅度、低时延等特点,这得益于百度研发的最新技术。该系统成功应用于2019百度AI开发者大会,将演讲内容实时翻译给现场观众收听,好评如潮。

百度翻译团队还发布了全球首个中文-英文演讲场景语音翻译数据集(BSTC)。该数据集总共包含超过50小时的演讲语音和对应的转录文本、时间轴、翻译文本等数据资源,涉及IT、经济、文化、生物、艺术等演讲主题。 该数据集填补了机器同传研究没有真实数据集的空白,对推动相关研究具有重要作用。

表 1:BSTC数据集详细统计数据(转录文本根据字符统计,翻译文本根据词统计,语音Audio根据小时统计)

真人与机器同传“同场竞技” AI媲美人类

为了评估当前机器同传技术的进展,百度翻译团队邀请了3个具有不同工作年限(3-7年)的同传译员,模拟真实的同传场景,对BSTC中的同一个演讲进行同声传译。最终结果表明,无论是采用传统的BLEU自动评价指标,以及人工译员的人工评价方法,度同传都表现出极具竞争力的翻译水平。

值得注意的是,评估所用的BLEU和人工评价均基于转写后的译文文本。BLEU指标基于n-gram严格匹配计算得分,而人工评价侧重译文的完整性和流畅度,类似于用笔译的标准评价口译。从表3可以看出,机器译文在可接受度(acceptability,综合评价译文的准确、流畅度,分数越高越好)上与人工译员相当(73.91% V.S. 73.04%),而在漏译率(漏翻译的词语占总数的百分比)上,机器明显低于人类译员(20% V.S. 47%)。人类译员在漏译率较高的情况下,仍然保持了较高的可接受度。这说明,人类译员在实时性要求高、脑力工作强度大的同传情景下,会灵活地适当省略,以突出重要信息的传递。而机器的优势在于其不知疲倦、漏译率低,显示出在同传场景下的巨大潜力。从表中也可以看出,传统的基于文本的评价方式评价同传有其局限性。研究契合同传场景的评价标准和指标是一个亟待解决的问题,也是一个非常有价值的方向。

表2:度同传和人工同传(S,A,B)自动评价结果

表3:度同传和人工同传人工评价结果

注:人工评价标准分为3档打分,可接受度为OK和GOOD之和。

BAD:译文准确性、流畅度很差,不能接受

OK:译文可懂,但是允许有少许错误(不影响理解内容)

GOOD:译文准确、流畅的传递了原文内容

2019百度AI开发者大会上,中文和英文演讲者的机器同传人工评价结果表明,从人工可接受度上,机器同传都达到了比较高的水准。中英同传可接受度为85.71%,英中同传可接受度为86.36%。根据现场使用体验,合成的目标语音仅落后演讲者语音3秒以内,为现场观众提供了高质量、低时延的沉浸式同传体验。

表4:人工评价结果

现阶段,机器同传已在许多国际会议上崭露头角,它的优势在于可以借助强大的AI技术和数据库作为后盾,可以拥有比人类同传译员更好的记忆力,掌握并调取更多资料和专业领域的知识。未来,百度将不断精进机器同传技术,打破语言壁垒,筑建世界沟通的桥梁。(用户可登入百度翻译开放平台申请体验最新同传技术:https://fanyi-api.baidu.com/api/trans/product/simultaneous,论文链接:https://arxiv.org/abs/1907.12984

产业机器翻译百度
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
推荐文章
暂无评论
暂无评论~