AI同传新突破:搜狗同传3.0首创「语境引擎」,PPT内容翻译正确率提高40%

这是第一款多模态人工智能语音同传产品,搜狗同传 3.0 将智能同传准确性带到了新的高度。

上周六,搜狗发布了业内首个多模态同传产品——搜狗同传 3.0 版。基于搜狗独创的「语境引擎」,搜狗同传 3.0 加入了视觉和思维能力,让机器同传不仅会听,还首次具备了看、理解和推理的能力。这一技术首次展出后,现场引来众人关注。

在上周六,搜狗同传 3.0 首次亮相。

最近,搜狗 AI 交互技术部总经理陈伟、搜狗同传产品总监张晶晶和项目负责人赵超向我们揭秘了搜狗同传背后的技术。

首创「语境引擎」,搜狗 AI 同传新突破

搜狗同传技术自 2016 年发布以来,已经经历了数千场会议同传的实际应用。开发者们在实践中发现,业内主流的语音同传系统无法稳定、高质量地满足多种演讲场合的需求,经常会出现演讲内容中专业词汇的识别和翻译效果不佳的情况。

为了解决上述问题,搜狗在同传 3.0 版中加入「语境引擎」,希望能够通过对语言的深入理解来解决问题。「语境引擎能够实时利用摄像头识别现场屏幕上的 PPT 内容,」陈伟介绍道,「之前机器同传只能获取语音信息,通过 OCR 技术,现在搜狗同传可获取语音信息+ PPT 信息,随后语境引擎可以构建个性化知识,从而使得同传译文效果有大幅提升。」

下图展示了一些 3.0 版同传的应用效果,第二列是嘉宾演讲的原始内容,第三列是旧版语音识别出来的内容。按照以往的情况,演讲者说出的一些罕见词,比如「投子」,通常会被 AI 识别为投资,但是 PPT 内容上有 AlphaGo 与李世石人机大战,会让同传 3.0 系统拓展出「投子」(指某一方认输)这样的围棋术语,在知识图谱的帮助下,AI 可以对译文进行大量更正。

除了专有名词,新技术的性能具体提升了多少?搜狗表示,他们特别选择了一个难度较高的专业性会议演讲,对同传 2.0 版、3.0 版和人类专业同传进行了对比测试。人类达到了 4.08 分、搜狗同传 2.0 可以达到 3.41 分,而 3.0 版则获得了 3.82 分。这一成绩实现了同传领域的新突破,让 AI 距离专业的人类同传水平又近了一步。

能看又能听的多模态技术并非搜狗同传 3.0 的唯一亮点。搜狗表示,同传 3.0 主要带来了三个方向上的提升:

  • 更加接近自然,从单纯的语音识别到语音+图像,新的方法模拟了人工同传的工作方式,增加视觉和大脑扩散知识点的功能,拥有更为复杂的感知系统。

  • 更加专业,此前的 AI 同传模型使用通用数据,新的模型通过实时定制知识增强能力,能够捕捉现场 PPT 内容补充演讲相关的专业领域的知识,并针对每一个演讲进行模型定制,提升同传效果。

  • 更加智能,以往模型训练需要一个被动学习的过程,现在自动学习 PPT 的内容,自动捕捉海量词汇,确保同传品质非常优秀。

陈伟进一步总结道:「搜狗同传 3.0 版进行了从前到后的大规模更新,首先是引入多模态,加入了视觉处理能力。其次在处理过程中从感知层面升级到了认知层面,在『语境引擎』的帮助下,系统可以通过知识图谱的帮助对同传内容进行进一步扩展。形成和演讲内容相关的语境信息。在新版同传工具中,系统还可以实时对同传和翻译效果进行增强,时延更低。」

与演讲者一起「边看边思考」

相比以往,多模态的 AI 同传更加接近于人类,「会看」意味着同传首次具备了视觉能力。据介绍,搜狗同传 3.0 在使用中可以借助屏幕截取,或者普通摄像头实时获取图像信息,不需要使用特定的设备。

「能理解会推理」,则归功于搜狗语境引擎的应用。在这其中则包含了搜狗知识图谱和百科的推理能力,系统可以将 OCR 技术获取的文字内容与演讲相关的核心知识产生关联,并通过「搜狗知立方」知识图谱实时推理拓展,获取背景知识。另外,同传系统可以基于搜狗百科的中英术语库获得中英双语对照,实时优化同传识别和翻译的效果。

搜狗表示,通过多模态方式获取信息,同时引入知识图谱的情况下,搜狗同传 3.0 针对 PPT 内容的识别准确率提升了 21.7%,翻译正确率提升了 40.3%。

除了大会演讲以外,搜狗同传的技术体系还会在更多场景中落地,远程会议、记者采访、视频直播、旅游出行,甚至法院庭审记录都是未来努力的方向。

搜狗同传技术自 2016 年发布 1.0 版以来,经历了不断升级的过程。「在同传系统翻译模块的背后,1.0 版使用 RNN 模型,在 2.0 版本中,我们引入了 Transformer 模型,解决了梯度爆炸问题,并可以记住更长的历史内容。在 3.0 版的系统中,除了 Transformer,还采用了基于上下文的流式解码,并引入了基于搜狗百科的知识图谱。」赵超介绍道。

但同时我们也应看到行业的共性问题,AI 同传的准确性距离人类专家水平还有一定距离,这其中既有算法能力的挑战,也有人们对于 AI「更高要求」的原因。「我们和很多同传从业者交流后发现,按照常规流程,人工同传需要合作方提前提供背景材料,并有一到两天的准备时间,」陈伟解释道,「但机器同传是没有准备时间的,并且在开始同传时,人类也可以看到现场 PPT 上的内容。因此对于机器同传而言,除了把语音做好外,视觉信息也非常重要。」

搜狗同传 3.0 背后,更是公司「自然交互+知识计算」战略的深入。搜狗 CEO 王小川最近表示,搜狗 AI 技术的核心,是经由深度学习为机器加入感知能力,从而实现与人类的自然交互,同时进一步提取出语言内的关联关系,让机器产生人类的「认知」能力。

从最初的语音交互到唇语识别,到机器翻译搜狗分身(合成主播),再到如今的多模态交互,搜狗正在依托语音、图像、手势等各种方式让 AI 与人类展开更为「自然」的交流。

产业多模态学习机器翻译AI同传搜狗
相关数据
搜狗机构

搜狗是中国互联网领先的搜索、输入法、浏览器和其它互联网产品及服务提供商。从2004年8 月搜狐公司推出全球首个第三代互动式中文搜索引擎——搜狗搜索以来,历经十余载,搜狗搜索已发展成为中国第二大搜索引擎。根据艾瑞咨询2016年12月数据,搜狗PC用户规模达5.28亿,仅次于腾讯,成为中国第二大互联网公司。移动端APP用户仅次于腾讯,成为中国互联网快速发展的标杆性企业。 搜狗在产品上追求技术创新,紧跟时代步伐,强调战略布局。经过长期摸索和反复尝试,目前形成了以搜索引擎、输入法和浏览器为主,以通话管理、地图、智能硬件等产品为辅的产品布局。

http://corp.sogou.com/
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

被动学习技术

在被动学习方法中,学习系统会随着环境的不断变化而持续更新。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

感知层技术

IoT (物联网) 三层结构中的一层,用于识别物体,采集信息等感知类的任务;另外两层是应用层(Application layer)和网络层(Network layer)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

推荐文章
暂无评论
暂无评论~