基于序列到序列模型的语音到语音转换
在论文《Direct speech-to-speech translation with a sequence-to-sequence model》中,谷歌展示了一种基于注意力的序列到序列神经网络,可以直接实现从一种语言到另一种语言的语音转换,而无需依赖中间的文本表征。该网络是端到端训练的,学习将源语的语音声谱图映射到目标语声谱图中,翻译内容也是对应的。该模型还能够使用源说话者的声音合成翻译语音。谷歌在两个西班牙语 - 英语语音翻译数据集上进行了实验,发现该模型的性能略低于语音 -文本翻译模型和文本 - 语音合成模型的级联基线模型,表明了该方法在此极具挑战性的任务中是可行的。