FAIR等研究人员提出无监督歌唱声音转换的方法
在论文《Unsupervised Singing Voice Conversion》中,Facebook AI 研究院(FAIR)和以色列特拉维夫大学的研究人员提出一种歌声转换的深度学习方法。所提出的网络不依赖文本或音符,而是直接将一位歌手的音频转换成另一位歌手的声音。训练是在无任何监督的情况下进行的:无歌词或任何种类的语音特征、无音符、无歌手之间的匹配样本;所提出的网络使用针对所有歌手的单个 CNN 编码器、单个 WaveNet 解码器以及迫使潜在表征(latent representation)不依赖歌手的分类器。每位歌手由一个解码器依赖的嵌入向量来表示。为了处理相对较小的数据集,研究人员提出了一项新的数据扩增计划以及基于回译(backtranslation)的新型训练损失函数和协议。研究人员通过评估证明,人声转换能够生成与目标歌手高度吻合的自然歌声。