行业内参

AI Daily

AI Daily 快讯 · 2019/05/23

百度研究团队推出第一个并行神经文本到语音系统，速度提升 17.5 倍

机器之心消息，来自百度的研究团队提出了一种非自回归 seq2seq 模型，可将文本转换为频谱图。它是一个完全卷积模型，并且能够在使用 WaveNet 声码器保持相当质量的语音同时，在 Deep Voice 3 上获得大约 17.5 倍的加速。在测试句子时，该模型比自回归模型的注意力误差更少。除此之外，研究人员们还通过应用逆自回归流（IAF）作为并行神经声码器，构建了第一个完全并行的神经文本到语音系统。该系统可以通过单个前馈传递从文本合成语音。研究团队还探索了一种新的方法来从头开始将 IAF 作为原始波形的生成模型进行训练，从而避免了从单独训练的 WaveNet 中进行蒸馏的需要。

AM 6:58arxiv.org

登录后评论