极大提升合成速度,百度提出首个全并行语音合成模型ParaNet

当前所有基于神经网络的语音合成模型都依赖于自回归,或者循环神经网络,而百度最近提出了一种依赖于非自回归的全并行模型。该模型在合成速度和语音质量方面都有很大的提升。

语音合成(Text-to-Speech, TTS)在智能家居、内容创作、人机交互领域有着广泛应用。百度研究院最近提出了语音合成领域首个全并行模型 (Parallel Neural Text-to-Speech)。该模型直接采用前馈神经网络 (Feedforward Neural Network),不依赖于任何自回归神经网络 (autoregressive neural network) 或者循环神经网络,从文本生成音频波形仅需一次前馈传递(feed-forward pass),大大提升了合成速度。

图 2:ParaNet 架构。它的编码器提供 key 和 value 作为文本表征。解码器中的第一个注意力模块将位置编码(positional encoding)作为查询,接下去是非因果卷积模块和注意力模块。

论文:Parallel Neural Text-to-Speech 

论文地址:https://arxiv.org/pdf/1905.08459.pdf

基于自回归神经网络的 TTS 模型有哪些不足?

目前,所有基于神经网络的语音合成模型都依赖于自回归,或者循环神经网络。所谓自回归是指,要生成当前数据点,必须生成时间序列里前面的所有数据点作为模型输入。



 
图 1:a) 自回归序列到序列模型。虚线描绘了推理时 mel 频谱的解码。b) 非自回归的 ParaNet 模型,它从预训练的自回归模型中提取注意力。

不论是 Google 提出的基于 RNN 的语音合成模型 Tacotron,还是百度之前提出的全卷积模型 Deep Voice 3,都是以自回归的方式将文本转换为频谱(spectrogram),然后再通过音频波形生成模型(声码器)从频谱生成音频原始波形(raw audio waveform)。这些模型只能按时间顺序逐帧生成频谱,导致其合成速度缓慢。

本文的全并行模型具有哪些优势?

百度研究院最新提出的全并行语音合成模型 ParaNet 打破了自回归合成的限制,一次前馈传导即可生成全部频谱。ParaNet 采用编码器-解码器(Encoder-Decoder)框架以及逐层优化的注意力机制,在保证合成语音自然度的前提下,合成速度较全卷积的自回归模型提升了 17.5 倍。

值得注意的是,在长难句的合成过程中,ParaNet 提供了更为稳定的文本与频谱之间的对齐关系(alignment),减少了重复词,跳词、以及错误发音,相比于自回归模型有更高的鲁棒性。

图 3:ParaNet 采用逐层优化的注意力机制,注意力对齐一层比一层更加精确 

与此同时,该工作还提出了一种并行音频波形生成模型 WaveVAE。它基于变分自编码器框架,采用逆自回归流(inverse autoregressive flow, IAF)作为 VAE 的解码器,可以完全并行地合成频谱所对应的原始音频波形。

相比于传统的自回归的波形生成模型 WaveNet,WaveVAE 可以千倍的提升合成速度。相较于其他基于逆自回归流的并行波形生成模型,比如 Google DeepMind 提出的 Parallel WaveNet 和百度之前提出的 ClariNet,WaveVAE 的编码器-解码器模块无须进行任何预训练和概率分布蒸馏(probability density distillation),大大简化了训练难度。

本文主要贡献如下:

  1. 本文提出首个基于注意力的非自回归 TTS 架构 ParaNet,它是全卷积的,能够直接将文本转换为 mel 频谱。该模型以逐层的方式迭代地细化文本和频谱之间的注意力对齐。

  2. 本文在语音质量、合成速度和注意力稳定性方面将非自回归 ParaNet 和基于自回归的模型 (Ping et al., 2018) 进行了对比。在合成速度方面,该模型相比 Deep Voice 3 (DV3) 提高了 17.5 倍,同时使用 WaveNet 声码器保持了相当的语音质量。而且与 DV3 相比,非自回归 ParaNet 在具有挑战性的测试句子中产生的注意力误差更少。

  3. 本文通过结合非自回归 ParaNet 和基于神经声码器 (Ping et al., 2019) 的逆自回归流(IAF)(Kingma et al., 2016),构建了首个全并行模型。它通过一次前馈传递就能将文本转换为语音。

  4. 此外,本文还探索了另一种方法——WaveVAE,用来训练作为波形样本生成模型的 IAF。与概率密度蒸馏方法 (van den Oord et al., 2018; Ping et al., 2019) 相比,WaveVAE 可以在变分自编码器框架 (Kingma and Welling, 2014) 中使用 IAF 作为解码器从零开始训练。

本文方法:非自回归的序列到序列模型

本文提出的全并行模型由两部分组成:一个前馈文本-频谱模型和一个基于频谱的并行波形合成器。

非自回归架构

本文提出的非自回归 ParaNet 使用的编码器架构与自回归模型相同。ParaNet 的解码器仅依赖于编码器的隐藏表征,以前馈的方式预测对数 mel 频谱的整个序列。因此,它的训练与合成可以并行完成。具体来说,从自回归序列到序列模型至非自回归模型,研究者做了以下主要架构修改:

  1. 非自回归解码器:没有了自回归生成的约束,解码器可以使用非因果卷积块来利用未来的上下文信息并提升模型性能。除对数 mel 频谱外,它还用 l_1 函数预测对数-线性频谱,以获得更好的性能。

  2. 无转换器:由于用了非因果解码器,非自回归模型移除了非因果转换器。注意,在 DV3 中引入非因果转换器的主要目的是为了基于非因果卷积 (Ping et al., 2018) 提供的双向上下文信息来细化解码器预测。

注意力机制

对非自回归模型来说,学习输入文本和输出频谱之间的精确对齐有点难度。之前的非自回归解码器依赖于外部的对齐系统 (Gu et al., 2018),或者自回归的隐变量模型 (Kaiser et al., 2018)。

在本文中,研究者展示了几种简单但有效的技术方法,可以通过多步注意力 (Gehring et al., 2017) 获得精确而稳定的对齐。其非自回归解码器能够以逐层的方式迭代地细化文本和 mel 频谱之间的注意力对齐,如图 3 所示。

特别是,该非自回归解码器采用了点积注意力机制,包含 k 个注意力模块(见图 2),其中每个注意力模块使用来自卷积块的每步长查询向量和来自编码器的每步长关键向量来计算注意力权重 (Ping et al., 2018)。

然后,注意力块计算上下文向量作为来自编码器的值向量的加权平均值。解码器从注意力块开始,其中查询向量仅位置编码。接下来,第一个注意力块在下一个基于注意力的层上为卷积块提供输入。

实验

本文提出了几个实验来评估该方法。在实验中,研究者使用了一个内部英语语音数据集,该数据集包含来自一位女性说话者大约 20 个小时的语音数据,采样速率为 48 kHz。研究者把该音频将音频降采样为 24 kHz。

基于 IAF 的波形合成

研究者首先对比了两种基于 IAF 的波形合成训练方法:ClariNet 和 WaveVAE。他们在 ClariNet(Ping et al., 2019) 中使用了相同的 IAF 架构。它由 4 个堆叠的高斯 IAF 块(分别由 [10, 10, 10, 30] 层 WaveNet 参数化)、64 个 residual & skip 通道以及 3 个空洞卷积滤波器组成。

IAF 以对数 mel 频谱为条件,如 ClariNet 一样有两层转置的 2D 卷积。研究者使用与 ClariNet 相同的教师-学生设置,训练 20 层高斯自回归 WaveNet 作为教师模型。至于 WaveVAE 中的编码器,也使用了以对数 mel 频谱为条件的 20 层高斯 WaveNet。

需要注意的是,WaveNet 的编码器和解码器共享同一个调节器网络。对于两种方法,研究者都使用了 100 万步的 Adam 优化器。初始学习率设置为 0.001,每 20 万步退火一半。

TTS

接下来,研究者评估了文本到频谱的 ParaNet 模型、并行神经 TTS 系统以及基于 IAF 的声码器(包括 ClariNet 和 WaveVAE)。他们使用了 Ping 等人 (2018) 引入的字符和音素的混合表征。自回归模型和非自回归 ParaNet 模型的所有参数都在附录 A 中可见。

研究者发现,更大的内核宽度和更深的网络层通常有助于提升语音质量。在参数数量方面,其非自回归模型自回归模型大了 2.57 倍,但它在合成语音方面有显著的加速。



 
表 2:附录 B 给出了文本到频谱模型在 100-sentence 测试集上的注意力误差统计。一个或多个错误发音、跳词和重复词被记为每次表达的单个错误。简单起见,所有模型使用 Griffin-Lim(Griffin and Lim, 1984) 作为声码器。在合成过程中,具有注意力掩码的非自回归 ParaNet 获得的注意力误差最少。非自回归的 ParaNet 获得的注意力误差最少。

表 3:平均意见得分(MOS),95% 置信区间用于比较。本文使用了 crowdMOS 工具包,如表 1 所示。 


合成语音样例:https://parallel-neural-tts-demo.github.io/

理论ParaNet前馈神经网络百度语音合成
1
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

变分自编码器技术

变分自编码器可用于对先验数据分布进行建模。从名字上就可以看出,它包括两部分:编码器和解码器。编码器将数据分布的高级特征映射到数据的低级表征,低级表征叫作本征向量(latent vector)。解码器吸收数据的低级表征,然后输出同样数据的高级表征。变分编码器是自动编码器的升级版本,其结构跟自动编码器是类似的,也由编码器和解码器构成。在自动编码器中,需要输入一张图片,然后将一张图片编码之后得到一个隐含向量,这比原始方法的随机取一个随机噪声更好,因为这包含着原图片的信息,然后隐含向量解码得到与原图片对应的照片。但是这样其实并不能任意生成图片,因为没有办法自己去构造隐藏向量,所以它需要通过一张图片输入编码才知道得到的隐含向量是什么,这时就可以通过变分自动编码器来解决这个问题。解决办法就是在编码过程给它增加一些限制,迫使其生成的隐含向量能够粗略的遵循一个标准正态分布,这就是其与一般的自动编码器最大的不同。这样生成一张新图片就比较容易,只需要给它一个标准正态分布的随机隐含向量,这样通过解码器就能够生成想要的图片,而不需要给它一张原始图片先编码。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

学习率技术

在使用不同优化器(例如随机梯度下降,Adam)神经网络相关训练中,学习速率作为一个超参数控制了权重更新的幅度,以及训练的速度和精度。学习速率太大容易导致目标(代价)函数波动较大从而难以找到最优,而弱学习速率设置太小,则会导致收敛过慢耗时太长

降采样技术

降采样是数位信号处理领域中的一种多速频数字信号处理(multi-rate digital signal processing)系统中采样率转换(sample rate conversion)技术的一种,或指代用来降低信号采样率的过程,与插值相反——插值用来增加取样频率——降采样通常用于降低数据传输速率或者数据大小。因为降采样会有混叠的情形发生,系统中具有降采样功能的部分称为降频器(decimator)。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

置信区间技术

在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。

因果卷积技术

因果卷积首次是在 WaveNet(van den Oord et al., 2016)论文中提出,从直观上来说,它类似于将卷积运算「劈」去一半,令其只能对过去时间步的输入进行运算。对于一维卷积来说,因果卷积可以简单将一般卷积的输出移动几个时间步而实现。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

前馈神经网络技术

前馈神经网络(FNN)是人工智能领域中最早发明的简单人工神经网络类型。在它内部,参数从输入层经过隐含层向输出层单向传播。与递归神经网络不同,在它内部不会构成有向环。FNN由一个输入层、一个(浅层网络)或多个(深层网络,因此叫作深度学习)隐藏层,和一个输出层构成。每个层(除输出层以外)与下一层连接。这种连接是 FNN 架构的关键,具有两个主要特征:加权平均值和激活函数。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

序列到序列技术

隐变量技术

在统计学中,隐变量或潜变量指的是不可观测的随机变量。隐变量可以通过使用数学模型依据观测得的数据被推断出来。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

空洞卷积技术

空洞卷积最大的特性就是扩张感受野,它不是在像素间插入空白像素,而是略过一些已有的像素。当然,我们也可以理解为保持输入不变,并向卷积核中添加一些值为零的权重,从而在计算量基本不变的情况下增加网络观察到的图像范围或序列长度。

堆叠技术

堆叠泛化是一种用于最小化一个或多个泛化器的泛化误差率的方法。它通过推导泛化器相对于所提供的学习集的偏差来发挥其作用。这个推导的过程包括:在第二层中将第一层的原始泛化器对部分学习集的猜测进行泛化,以及尝试对学习集的剩余部分进行猜测,并且输出正确的结果。当与多个泛化器一起使用时,堆叠泛化可以被看作是一个交叉验证的复杂版本,利用比交叉验证更为复杂的策略来组合各个泛化器。当与单个泛化器一起使用时,堆叠泛化是一种用于估计(然后纠正)泛化器的错误的方法,该泛化器已经在特定学习集上进行了训练并被询问了特定问题。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

优化器技术

优化器基类提供了计算梯度loss的方法,并可以将梯度应用于变量。优化器里包含了实现了经典的优化算法,如梯度下降和Adagrad。 优化器是提供了一个可以使用各种优化算法的接口,可以让用户直接调用一些经典的优化算法,如梯度下降法等等。优化器(optimizers)类的基类。这个类定义了在训练模型的时候添加一个操作的API。用户基本上不会直接使用这个类,但是你会用到他的子类比如GradientDescentOptimizer, AdagradOptimizer, MomentumOptimizer(tensorflow下的优化器包)等等这些算法。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
推荐文章
暂无评论
暂无评论~