小米提出快速端到端神经声音合成器RawNet
近年来,基于声音合成器(vocoder)的神经网络展示了其合成高质量语音的强大功能。这些模型通常通过调整一些光谱特征来生成样本,如Mel-spectrum(梅尔频谱)。然而,这些特征通过语音分析模块来提取,包含部分基于人类知识的处理。在论文《RawNet: Fast End-to-End Neural Vocoder》中,作者提出了RawNet,这是一个真正的端到端神经声音合成器,其使用编码器网络来学习高表征信号,同时又是一个自回归声音合成器网络,以生成语音样本。编码器和声音合成器结合起来就像是一个自编码网络,可以在没有任何人为设计特征的情况下直接在原始波形(raw waveform)上训练。Copy-Synthesis任务的实验表明,RawNet可以取得与LPCNet相当的合成语音质量,并且具有更小的模型架构以及推理步骤中更快的语音生成速度。