行业内参

AI Daily

AI Daily 快讯 · 2019/06/03

将文本转语音速度提高38倍，这个FastSpeech真的很fast

基于神经网络的端到端文本语音转换（TTS）显著改善了合成语音的质量，但存在推理速度慢、合成语音不稳健等问题。在本文中，来自浙大和微软的研究者提出了一种基于 Transformer 的新型前馈网络，用于为 TTS 并行生成梅尔频谱。在 LJSpeech 数据集上的实验表明，本文的并行模型在语音质量方面达到了自回归模型的水平，而且与自回归 Transformer TTS 相比，本文的模型可以将梅尔频谱生成速度提高 270 倍，将端到端语音合成速度提高 38 倍。

PM 7:08mp.weixin.qq.com

登录后评论

暂无评论~

登录

文章库