阿里达摩院发布新一代自研语音AI芯片技术,计算效率提升百倍以上

机器之心 8 月 21 日消息,在美国旧金山举行的芯片行业顶级学术会议HOTCHIPS上,阿里巴巴达摩院发布了新一代AI语音FPGA芯片技术——Ouroboros,该技术能将语音生成算法的计算效率提高百倍以上。这是业界首款专用于语音合成算法的 AI FPGA芯片结构设计。


作为芯片领域的顶级峰会之一,HOTCHIPS 与其他顶级半导体会议的显著区别之一就是更侧重于商业应用,而非仅仅是学术项目,此次阿里发布的Ouroboros 就是面向语音合成领域商业应用的 FPGA 加速计算方案。

(阿里达摩院科学家在HOTCHIPS大会现场发布自研语音芯片技术)针对 ASIC 实现的性能仿真预估表明, Ouroboros 的设计可以实时运行 WaveNet 等业界先进的文字转语音(TTS,Text-to-Speech)算法 ,实现实时语音合成

算法很好但难以进行实时计算是语音芯片的行业难题。Ouroboros的突破在于它使用了端上定制硬件加速技术,替代云端服务器,有效避免了对网络连接和云端服务的强依赖性,解决了这一问题。以计算量最大的AI语音合成算法WaveNet为例,为了生成1秒的语音,CPU和GPU需要消耗50秒的计算时间,但Ouroboros在FPGA环境下只需要 0.3秒,大大提升计算效率,同时将整体服务成本降低 10 倍以上。

阿里用户在使用天猫精灵、高德导航、智能点餐机等服务时,将率先得到媲美真人语音交互的体验。


 阿里发布的 Ouroboros 技术,同样适用于达摩院于今年 7 月发布的新一代的语音合成算法KAN-TTS。该算法将商用系统里的合成语音与原始语音的相似度提高到97%以上,是目前业界体验最好的语音生成算法。自研算法与自研AI芯片设计的结合,意味着阿里在语音生成领域实现了真正的“软硬一体化”计算结构的落地。


据了解,Ouroboros 芯片技术除了语音合成之外,还将支持AI语音识别。基于 Ouroboros 研发完整的语音AI芯片,有望率先在天猫精灵上落地。

产业AI芯片语音识别达摩院阿里
1
相关数据
语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

推荐文章
暂无评论
暂无评论~