谷歌新论文,「学习流利地说外语:多语言语音合成和跨语言语音克隆」
机器之心获悉,谷歌近期一篇名为「学习流利地说外语:多语言语音合成和跨语言语音克隆」的学术正引发社群热议关注。以下为论文概述:我们提出了一个基于 Tacotron 的多名发言者以及多语言的文本到语音转换(TTS)的合成模型,其能够以多种语言生成高质量语音。此外,该模型能够跨语言传输语音,例如合成流利使用英语使用者的声音的西班牙语演讲,且前提是没有任何双语或平行示例训练。这种转化适用于相差甚远的语言,例如:英语和普通话。实现这一结果的关键在于:1。使用音素输入表示来鼓励跨语言共享模型容量,以及 2. 结合对抗性损失术语以鼓励模型分析其说话者身份的表示(这与语言完全相关)来自语音内容的训练数据)。通过对每种语言的多个发言者进行训练,并结合自动编码输入以帮助稳定注意力,进一步扩大模型训练,产生一个可以持续使用的模型能综合可理解的演讲,并训练所有语言的演讲者配以本地或外国口音。