百度提出 Deep Voice:实时的神经语音合成系统

百度研究部门最近提出了深度语音(Deep Voice)系统,该系统是一个完全由深度神经网络构建的高质量语音转文本系统。


百度研究部门最近提出了深度语音(Deep Voice)系统,该系统是一个完全由深度神经网络构建的高质量文本转语音系统。而如今建立这样一个系统最大的障碍就是音频合成的速度,因为以前的方法需要花几分钟到几小时来生成仅仅几秒钟的语音。我们致力于解决该难题,并且已经做到了实时的语音合成,这相比以前的 WaveNet 推理的实现有 400 倍的加速。


从文本合成人工语音,也就是我们所熟知的文本转语音(TTS),在许多的应用中都是非常重要的组件,比如语音设备、导航系统和对视力障碍人群的辅助应用。从基础上,它使得人类在不需要视觉界面的情况下能与科技进行交互。


现代 TTS 系统主要基于复杂的、多阶段处理流程(pipeline),每个都依赖人工调配的特征参数以及启发式规则。由于这种复杂性,开发新的 TTS 系统需要大量的人力,也非常的困难。


Deep Vioce 受启发于传统的文本转语音处理流程采用了同样的架构,但使用神经网络取代了所有组件且使用了更简单的特征。这使得我们的系统更适用于新数据集、语音和没有任何手动数据注释或其他特征调配的领域。


Deep Voice 为真正的端到端语音合成奠定了基础,这种端到端系统没有复杂的处理流程,也不依赖于人工调配(hand-engineered)的特征作为输入或进行预训练(pre-training)。


我们目前的流程并不是端到端的,由音素模型(phoneme model)和语音合成组件所构成。下面的剪辑是通过整个流程由文本合成的语音。音频可点击原文链接http://research.baidu.com/deep-voice-production-quality-text-speech-system-constructed-entirely-deep-neural-networks/  查看。


这个声音有机械的性质是因为整个流程的结构和音位模型,如果只是语音合成组件的话会生成更自然的语音。以下是仅仅使用语音合成组件的语音剪辑,其使用的特征直接来源于实际的语音而不是音位模型。


这些样本听起来非常接近原始音频,这也表示我们的语音合成系统组件能很有效地生成人类语音。


深度学习变革了包括计算机视觉和语音识别在内的许多领域,我们相信语音合成如今也到了一个跳变点。我们期待看到深度学习社区能想到新的东西,并希望通过分享我们的文本转语音系统能加速此进程。


更多的细节,可查看我们的论文:


  • 论文:Deep Voice: Real-time Neural Text-to-Speech


image (3).png


摘要:我们提出了一种高质量的、完全构建于深度神经网络的文本转语音系统 Deep Voice,它为真正的端到端神经语音合成奠定了基础。该系统包含 5 个重要基础:定位音素边界的分割模型、字母到音素(grapheme-to-phoneme) 的转换模型、音素时长预测模型、基础频率预测模型、音频合成模型。对分割模型,我们提出了一种使用深度神经网络完成音素边界检测的新方法,它使用了 CTC(connectionist temporal classification)损失函数。对音频合成模型,我们部署了 WaveNet 的变体,它要比原始的 WaveNet 需要更少的参数、训练速度更快。在每个组件上使用神经网络,我们系统要比传统的文本转语音系统更简单、更灵活(传统的组件需要费劲的人工调配以及大量的专业知识)。最后,我们演示了无论是 GPU 还是 CPU 上使用我们的系统进行推理,能够比实时的、说是最好的 WaveNet 推理核函数更快,比已有的实现快了 400 多倍。


原文链接:http://research.baidu.com/deep-voice-production-quality-text-speech-system-constructed-entirely-deep-neural-networks/

入门
暂无评论
暂无评论~
返回顶部