产业资讯方案大厅机构大厅

语音合成系统 · DeepVoice

语音合成语言识别百度

产品描述

百度推出了一个名叫 DeepVoice 的全新人工智能系统,借助热门的深度学习技术,它能够实现文本到语音(TTS)的转换。该系统还可以每次学习一种声音,在数小时后即可掌握。DeepVoice,可以轻松训练 AI 合成百种英文口音。研发团队发现,AI 把不同口音的演讲者,对应到嵌入空间的不同区域里。比如来自大不列颠岛和北美大陆的人,在嵌入空间里占据的区域也有明显的不同。 以前的 TTS 系统会在某些环节上采用深度学习,但在 Deep Voice 之前,没有团队采用全深度学习的框架。与现有技术相比,这个系统非常高效,专为生产系统而设计。相比于 DeepMind 关于人类音频合成的中实现的 WaveNet,现在这个系统的有效速度提升了 400 倍。Deep Voice 可以在几分之一秒内合成音频,并在合成速度和音频质量之间提供可调和的权衡。相比之下,WaveNet 合成一秒钟的音频,系统需要跑好几分钟。

Deep Voice 将深度学习应用于语音合成的全过程。需要提取的特征非常少,因此容易应用于不同的数据集。传统语音合成需要进行大量的特征处理和特征构建,但百度通过使用深度学习避免了这些问题。这使得 Deep Voice 的应用范围更加广泛,使用起来也更加方便。如果需要应用于新的数据集,与传统系统动辄几个星期的时间相比,Deep Voice 可以在几个小时内完成重新调试。

所用技术

研发机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。