将文本转语音速度提高38倍,这个FastSpeech真的很fast
基于神经网络的端到端文本语音转换(TTS)显著改善了合成语音的质量,但存在推理速度慢、合成语音不稳健等问题。在本文中,来自浙大和微软的研究者提出了一种基于 Transformer 的新型前馈网络,用于为 TTS 并行生成梅尔频谱。在 LJSpeech 数据集上的实验表明,本文的并行模型在语音质量方面达到了自回归模型的水平,而且与自回归 Transformer TTS 相比,本文的模型可以将梅尔频谱生成速度提高 270 倍,将端到端语音合成速度提高 38 倍。