Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张颖、王晓瑞、王仲远专栏

一句话复制你的音色:快手单样本语音转换研究入选ICASSP 2021

语音转换的应用在电影配音、角色模仿、复刻人物音色等领域至关重要。近年来,基于深度学习的快速发展,语音转换已经取得很大的进步,然而小数据的语音转换仍是个热点问题。来自快手MMU的研发人员提出了一种基于说话人感知模块(SAM)的单样本语音转换的解决方案,仅通过说话人的单句语音样本提取用户的音色表征,就可以实现该说话人作为目标说话人音色的语音转换。

语音转换(VC)是指在保证一句话内容不变的基础上,将原始语音中说话人音色迁移到目标说话人音色。语音转换在电影配音、角色模仿以及复刻人物音色等方面都有重要的应用。


当前基于深度学习实现到特定目标说话人的语音转换已经取得很大的进步,例如基于 CycleGAN、VAE 以及 ASR 的语音转换方法都可以很好的实现到训练集内说话人的语音转换。


然而,如果想要增加一个目标说话人音色,或者进行用户音色的自定义复刻,通常需要大量的说话人数据以重新训练一个以该说话人音色为目标音色语音转换模型,或者通过少量数据对现有模型进行自适应训练。实际应用中,数据库录制的周期和成本都比较高,而对于普通用户而言,也很难获得用户大量的语音数据。因此,小数据的语音转换成为亟待解决的热点问题。


而来自快手负责音频技术研发部门 MMU 的研发人员提出了一种基于说话人感知模块(SAM)的单样本语音转换的解决方案。该方案仅通过说话人的单句语音样本提取用户的音色表征,就可以实现该说话人作为目标说话人音色的语音转换。目前该成果已被 ICASSP 2021 接收,并且已经在中国提交发明专利申请。


图片


论文地址:https://ieeexplore.ieee.org/document/9414081


基于说话人感知模块的单样本语音转换

 

要完成单样本的语音转换,核心有两点:一是完成对语音中内容特征的提取;二是利用目标说话人的单样本完成目标说话人的特征向量的解耦,然后将目标说话人的特征向量与提取的语音内容特征进行耦和,完成到该目标音色的语音转换。


图片


说话人感知语音转换(SAVC)系统,其中包括:


  • 预训练的说话人无关的语音识别模型(SI-ASR),用以从语音中提取说话人无关的声学后验概率(PPGs)。声学后验概率可以表征语音每帧的内容信息。

  • 说话人感知模块(SAM),用以从语音中解耦出说话人特征向量;为了避免语音中内容信息对说话人特征向量提取的干扰,辅助模型更好的解耦说话人的信息,SAM 的输入特征和 SI-ASR 的输入特征来自同一说话人的不同语音。

  • 解码器,对声学后验概率和说话人向量进行耦和,预测特定说话人相关的声学特征。

  • 声码器,采用 LPCNet 作为后端声码器,将解码器预测的声学特征重建为语音信号。


SAM 的设计受启发于声纹识别的成果以及注意力机制的应用,包括以下三个模块。


参考编码器


对变长的目标说话人语音特征进行编码,因为原始说话人语音和目标说话人语音通常不等长,而且理论上说话人向量不随说话内容改变,因此用帧级别的特征向量表示目标说话人的参考编码显然是不合适的。将其压缩为定长的参考编码向量不仅可以使其对时域信号变化不敏感,也以方便进一步与原始语音中提取的 PPGs 进行特征耦和。


假设输入是 X=[x_1,x_2,…,x_T],T 是输入的长度,因此目标说话人编码向量可以表示为 R=RefEncoder(X),其中 R∈图片,d_r 是定长目标说话人编码向量的维度。


说话人先验知识模块(SKB)


声纹识别任务中通常使用 x-vector、i-vector 等特征表征不同的说话人向量,这些向量分布在同一超曲面空间,不仅可以表征不同说话人的区别,也包含了不同说话人之间的相关性。通过预训练的声纹模型提取说话人向量 x-vector,多个说话人的向量组合成 SKB。SKB 中的数据分布可以看作是说话人的表征空间,更多的说话人向量可以将说话人空间的信息表征的更详细。


假设说话人的向量特征维度是 1×d_x,挑选 N 个说话人作为说话人先验知识模块的基础说话人,在挑选训练集说话人的时候考虑到性别均衡(一半男性,一半女性)。那么 SKB 可以表示为 S=[S_1,S_2,…,S_N],其中 S∈图片。文章使用的说话人向量 x-vector 为 200 维,选择 200 个基础说话人。


多头注意力层


用于建模全局说话人向量,对参考说话人向量和 SKB 求距离相似性。SKB 中一个特定的说话人向量可以看成是说话人表示空间的一个坐标点。因此,一个新的说话人向量可以通过对所有基础说话人在先验说话人向量空间表征的加权量化表示。 


自注意力层的输出可以表示为:

图片


其中,Q,K,V 是注意力的查询(Query)、以及键(Key)值(Value),d_k 用于表示 Key 的维度。


多头注意力层的计算可以表示为:

图片

文章中选择四头注意力层,且 W_i^Q,W_i^K,W_i^V,W^O 为参数矩阵。

最终得到的目标说话人向量表示为:

图片

SAM 模块网络参数如下表所示:


图片


实验对比


文章中对比了几种当前最优的基于单样本的语音转换网络,基线模型和文章中提出的 SAVC 模型均使用 Aishell-1 训练集的 340 人中文数据作为训练数据集;选择 Aishell-1 测试集中的集外说话人作为测试时使用的原始说话人和目标说话人。


实验对比结果如下,可以看出该论文方法在单样本语音转换任务上主观和客观的测试指标均好于 SOTA。


图片


文章中提出的 SAVC 模型和基线模型的梅尔谱失真 (MCD) 结果如图 2 所示。从结果中可以很明显看出,SAVC-GL 模型的梅尔谱失真比 INVC-GL 模型的低很多。此外,SAVC 模型的梅尔谱失真结果优于 SAVC-GL 模型的结果,说明后端声码器的改进可以进一步提高性能。与 MSVC 模型和 GST-VC 模型的失真结果相比,SAVC 模型表现更优秀,而且 SAVC 模型的结果在同性别之间和跨性别语音转换的结果没有明显的差距。这些都证明了 SAVC-GL 模型的有效性。 


图片


图 3 的结果表明,相比于基线模型,SAVC 模型在所有转换对中均获得了最佳的相似度评分。值得注意的是,GST-VC 的男女转换得分低于其他转换对。这可能是因为 Aishell-1 的训练集中女性数据更多,性别不平衡导致 GST-VC 表征不同的目标说话人能力有区别。因为 GST-VC 中表征说话人信息的模块是完全基于无监督训练的,无法对这种现象进行人工干预。但是,在 SAVC 模型中未观察到此问题,因为作者在设计 SKB 时考虑到了性别均衡,有效的减少了训练集合中数据不均衡造成的干扰。结果符合作者对 SAVC 设计的期望。

 

图片


基线模型和 SAVC 模型的自然度平均意见得分如图 4 所示。通过 Griffin Lim 算法重构的语音得分比 LPCNet 重构的语音得分差很多。这是因为 Aishell-1 语料库语音识别数据集,由移动电话记录。音频中存在许多噪声,例如混响,信道噪声等,这些均不利于 Griffin Lim 算法从频谱参数中预测相位,导致合成语音质量变差。但是,LPCNet 声码器在训练时对数据进行随机加噪处理,增强了数据的多样性,因而对带噪信号更鲁棒。尽管后端声码器都是 LPCNet,但 MSVC 模型的自然度主观意见得分低于 GST-VC 模型和 SAM-VC 模型。因为说话人编码器中建模的说话人空间和 MSVC 模型是完全独立的,MSVC 模型只对训练过程中遇到的说话人向量进行建模。在预测阶段,对于已经训练好的 MSVC 模型而言,新的目标说话人向量是是完全未知的信息,因而声学后验概率和新的说话人向量之间的可能存在不匹配,这导致了语音质量的下降。GST-VC 模型和 SAVC 模型之间自然度主观意见分数非常的接近,这也是很容易理解的,因为这两个模型中用到的说话人向量均是由语音转换模型预测的,并且它们都使用 LPCNet 重建波形。 

更多 demo 可以参见:https://vcdemo-1.github.io/SAVC/savc.html

应用

变声技术在快手有丰富的应用场景,比如短视频编辑,直播变声,个性化定制用户音色等。而通过单样本语音转换复制音色,不仅可以大大降低对训练数据库的要求,而且也可以显著节省计算资源。基于单样本的语音转换是快手在语音交互领域的一个重大技术突破,有望引领变声应用的新潮流。

快手 MMU 介绍

快手MMU(Multimedia understanding)部门负责快手全站海量音视频、直播的内容理解,为公司提供500+智能服务,应用在搜索、推荐、生态分析、风险控制等诸多场景,团队拥有业内最顶尖的算法工程师和应用工程师,持续招募相关领域技术人才。

理论快手
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

自注意力技术

自注意力(Self-attention),有时也称为内部注意力,它是一种涉及单序列不同位置的注意力机制,并能计算序列的表征。自注意力在多种任务中都有非常成功的应用,例如阅读理解、摘要概括、文字蕴含和语句表征等。自注意力这种在序列内部执行 Attention 的方法可以视为搜索序列内部的隐藏关系,这种内部关系对于翻译以及序列任务的性能非常重要。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

后验概率技术

在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。同样,后验概率分布是一个未知量(视为随机变量)基于试验和调查后得到的概率分布。“后验”在本文中代表考虑了被测试事件的相关证据。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

先验知识技术

先验(apriori ;也译作 先天)在拉丁文中指“来自先前的东西”,或稍稍引申指“在经验之前”。近代西方传统中,认为先验指无需经验或先于经验获得的知识。先验知识不依赖于经验,比如,数学式子2+2=4;恒真命题“所有的单身汉一定没有结婚”;以及来自纯粹理性的推断“本体论证明”

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

CycleGAN技术

GAN的一个变种

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~