谷歌新研究项目Translatotron,直接语音翻译,不再使用中间文本
机器之心今日获悉,谷歌今日公布的一项新研究项目不再需要中间文本,只使用音频,便可以直接将一种语言翻译成另一种目标语言。这也使得采用一种语言的口语句子,并在另一种语言中输出口语,但与大多数翻译技术不同,它不使用中间文本,只使用音频。这也使得翻译过程快,但更重要的是让它更容易反映出说话人的声音节奏和音调。该项目名为Translatotron,尽管其目前仍然只是一个大型实验,但谷歌研究人员一直在研究语音直接到语音翻译的可能性,直到最近才有突破。
翻译语音通常是通过将问题分解为较小的连续语音来完成的:将源语音转换为文本(语音到文本或STT),将一种语言的文本转换为另一种语言的文本(机器翻译),然后转换结果文本并回到语音(文本到语音,或TTS)。但这一过程并不完美,每一步转换都有易于发生的错误类型,而且错误之间还可能相互复合。