百度研究团队推出第一个并行神经文本到语音系统,速度提升 17.5 倍
机器之心消息,来自百度的研究团队提出了一种非自回归 seq2seq 模型,可将文本转换为频谱图。它是一个完全卷积模型,并且能够在使用 WaveNet 声码器保持相当质量的语音同时,在 Deep Voice 3 上获得大约 17.5 倍的加速。在测试句子时,该模型比自回归模型的注意力误差更少。除此之外,研究人员们还通过应用逆自回归流(IAF)作为并行神经声码器,构建了第一个完全并行的神经文本到语音系统。该系统可以通过单个前馈传递从文本合成语音。研究团队还探索了一种新的方法来从头开始将 IAF 作为原始波形的生成模型进行训练,从而避免了从单独训练的 WaveNet 中进行蒸馏的需要。