Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

语音生成的「智能涌现」:10万小时数据训练,亚马逊祭出10亿参数BASE TTS

伴随着生成式深度学习模型的飞速发展,自然语言处理(NLP)和计算机视觉(CV)已经经历了根本性的转变,从有监督训练的专门模型,转变为只需有限的明确指令就能完成各种任务的通用模型。

语音处理和文本到语音(TTS)领域,这样的转变也正在发生,模型能够利用数千小时的数据,使合成结果越来越接近类人语音。

在最近的一项研究中,亚马逊正式推出了 BASE TTS,将 TTS 模型的参数规模提升到了前所未有的 10 亿级别。

图片

  • 论文标题:BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data

  • 论文链接:https://arxiv.org/pdf/2402.08093.pdf

BASE TTS 是一个多语言、多说话人的大型 TTS(LTTS)系统,在约 10 万小时的公共领域语音数据上进行了训练,比此前的训练数据量最高者 VALL-E 翻了一番。受 LLM 成功经验的启发,BASE TTS 将 TTS 视为下一个 token 预测的问题。这种方法通常与大量训练数据结合使用,以实现强大的多语言和多说话人能力。

本文的主要贡献概述如下:

1、提出了 BASE TTS,这是迄今为止最大的 TTS 模型,具有 10 亿参数,并在由 10 万小时公共领域语音数据组成的数据集上进行了训练。在主观评估中,BASE TTS 的表现优于公开的 LTTS 基线模型。

2、展示了如何将 BASE TTS 扩展到更大的数据集和模型规模,以提高其为复杂文本呈现适当韵律的能力。为此,研究者开发并提供了一个「涌现能力」测试集,可作为大规模 TTS 模型文本理解和渲染的主观评估基准。本文报告了 BASE TTS 的不同变体在该基准上的表现,结果显示,随着数据集规模和参数量的增加,质量也在单调提升。

3、提出了建立在 WavLM SSL 模型之上的新型离散语音表示法,旨在只捕捉语音信号的音位和韵律信息。这些表示法优于基准量化方法,尽管压缩水平很高(仅 400 比特 / 秒),但仍能通过简单、快速和流式解码器将其解码为高质量的波形。

接下来,让我们看看论文细节。

BASE TTS 模型

与近期的语音建模工作类似,研究者采用了基于 LLM 的方法来处理 TTS 任务。文本被输入到基于 Transformer 的自回归模型,该模型可预测离散音频表示(称为语音编码),再通过由线性层和卷积层组成的单独训练的解码器将它们解码为波形。

图片

BASE TTS 设计的目的是模拟文本 token 的联合分布,然后是离散的语音表示,研究者称之为语音编码。通过音频编解码器对语音进行离散化是设计的核心,因为这样就能直接应用为 LLM 开发的方法,而 LLM 正是 LTTS 最新研究成果的基础。具体来说,研究者使用具有交叉熵训练目标的解码自回归 Transformer 对语音编码进行建模。尽管简单,但这一目标可以捕捉到表达性语音的复杂概率分布,从而缓解早期神经 TTS 系统中出现的过度平滑问题。作为一种隐式语言模型,一旦在足够多的数据上训练出足够大的变体,BASE TTS 在韵律渲染方面也会有质的飞跃。

离散语言表示

离散表示法是 LLM 取得成功的基础,但在语音中识别紧凑且信息丰富的表示不如在文本中那么明显,此前的探索也较少。对于 BASE TTS,研究者首先尝试使用 VQ-VAE 基线(第 2.2.1 节),该基线基于自动编码器架构,通过离散瓶颈重构 mel 频谱图。VQ-VAE 已成为语音和图像表征的成功范例,尤其是作为 TTS 的建模单元。

研究者还介绍了一种通过基于 WavLM 的语音编码学习语音表示的新方法(第 2.2.2 节)。在这种方法中,研究者将从 WavLM SSL 模型中提取的特征离散化,以重建 mel 频谱图。研究者应用了额外的损失函数来促进说话人的分离,并使用字节对编码(BPE,Byte-Pair Encoding)压缩生成的语音代码,以减少序列长度,从而使得能够使用 Transformer 对较长的音频进行建模。

图片

与流行的音频编解码器相比,这两种表示法都经过了压缩(分别为 325 bits/s 和 400 bits/s),以实现更高效的自回归建模。基于这种压缩水平,接下来的目标是去除语音编码中可在解码过程中重建的信息(说话人、音频噪声等),以确保语音编码的容量主要用于编码语音和韵律信息。

自回归语音建模(SpeechGPT)

研究者训练了一个 GPT-2 架构的自回归模型「SpeechGPT」,用于预测以文本和参考语音为条件的语音编码。参考语音条件包括从同一说话人随机选择的语句,该语句被编码为固定大小的嵌入。参考语音嵌入、文本和语音编码被串联成一个序列,该序列由一个基于 Transformer 的自回归模型建模。研究者对文本和语音使用单独的位置嵌入和单独的预测头。他们从头开始训练了自回归模型,而不对文本进行预训练。为了保留文本信息以指导拟声,还对 SpeechGPT 进行了训练,目的是预测输入序列文本部分的下一个 token,因此 SpeechGPT 部分是纯文本 LM。与语音损失相比,此处对文本损失采用了较低的权重

波形生成

此外,研究者指定了一个单独的语音编码到波形解码器(称为「语音编码解码器」),负责重建说话人身份和录音条件。为了使模型更具可扩展性,他们用卷积层代替了 LSTM 层,对中间表示进行解码。研究表明,这种基于卷积的语音编码解码器计算效率高,与基于扩散的基线解码器相比,整个系统的合成时间减少了 70% 以上。

图片

研究者同时指出,实际上语音编码解码器的输入并不是语音编码,而是自回归 Transformer 的最后一个隐藏状态。之所以这样做,是因为此前 TortoiseTTS 方法中密集的潜在表征提供了比单一语音代码更丰富的信息。在训练过程中,研究者将文本和目标代码输入训练好的 SpeechGPT(参数冻结),然后根据最后的隐藏状态对解码器进行调节。输入 SpeechGPT 的最后隐藏状态有助于提高语音的分段和声学质量,但也会将解码器与特定版本的 SpeechGPT 联系起来。这使实验变得复杂,因为它迫使两个组件总是按顺序构建。这一限制需要在今后的工作中加以解决。

实验评估

研究者探索了缩放如何影响模型针对具有挑战性的文本输入产生适当的韵律和表达的能力,这与 LLM 通过数据和参数缩放「涌现」新能力的方式类似。为了验证这一假设是否同样适用于 LTTS,研究者提出了一个评估方案来评估 TTS 中潜在的涌现能力,确定了七个具有挑战性的类别:复合名词、情感、外来词、副语言、标点符号、问题和句法复杂性。

多项实验验证了 BASE TTS 的结构及其质量、功能和计算性能:

  • 首先,研究者比较了基于自动编码器和基于 WavLM 的语音编码所达到的模型质量。

  • 然后,研究者评估了对语音编码进行声学解码的两种方法:基于扩散的解码器和语音编码解码器。

  • 在完成这些结构消融后,研究者评估了 BASE TTS 在数据集大小和模型参数的 3 种变体中的涌现能力,并由语言专家进行了评估。

  • 此外,研究者还进行了主观的 MUSHRA 测试以衡量自然度,以及自动可懂度和说话人相似度测量,还报告了与其他开源文本到语音模型的语音质量比较。

VQ-VAE 语音编码 vs. WavLM 语音编码

为了全面测试两种语音 token 化方法的质量和通用性,研究者对 6 位美式英语和 4 位西班牙语说话人进行了 MUSHRA 评估。就英语的平均 MUSHRA 分数而言,基于 VQ-VAE 和 WavLM 的系统不相上下(VQ-VAE:74.8 vs WavLM:74.7)。然而,对于西班牙语,基于 WavLM 的模型在统计学上显著优于 VQ-VAE 模型(VQ-VAE:73.3 vs WavLM:74.7)。请注意,英语数据约占数据集的 90%,而西班牙语数据仅占 2%。

表 3 显示了按说话人分类的结果:

图片

由于基于 WavLM 的系统表现至少与 VQ-VAE 基线相当或更好,因此研究者在进一步的实验中使用它来表示 BASE TTS。

基于扩散的解码器 vs. 语音代码解码器

如上文所述,BASE TTS 通过提出端到端语音编码解码器,简化了基于扩散的基线解码器。该方法具有流畅性,推理速度提高了 3 倍。为了确保这种方法不会降低质量,研究者对所提出的语音编码解码器与基线进行了评估。表 4 列出了对 4 位说英语的美国人和 2 位说西班牙语的人进行的 MUSHRA 评估结果:

图片

结果显示,语音编码解码器是首选方法,因为它不会降低质量,而且对大多数语音而言,它能提高质量,同时提供更快的推理。研究者同时表示,结合两个强大的生成模型进行语音建模是多余的,可以通过放弃扩散解码器来简化。

涌现能力:数据和模型规模的消融

表 1 按 BASE-small、BASE-medium 和 BASE-large 系统报告了所有参数

图片

三个系统的语言专家判断结果以及每个类别的平均得分如图 4 所示:

图片

在表 5 的 MUSHRA 结果中,可以注意到语音自然度从 BASE-small 到 BASE-medium 有明显改善,但从 BASE-medium 到 BASE-large 的改善幅度较小:

图片

BASE TTS vs. 行业 baseline

总体来说,BASE TTS 生成的语音最自然,与输入文本的错位最少,与参考说话人的语音最相似,相关结果如表 6 和表 7 所示:

图片

语音编码解码器带来的合成效率提升

语音编码解码器能够进行流式处理,即以增量方式生成语音。将这一功能与自回归 SpeechGPT 相结合,该系统的首字节延迟可低至 100 毫秒 —— 只需几个解码语音代码就足以产生可懂的语音。

这种最低延迟与基于扩散的解码器形成了鲜明对比,后者需要一次性生成整个语音序列(一个或多个句子),而首字节延迟等于总生成时间。

此外,研究者还观察到,与扩散基线相比,语音编码解码器使整个系统的计算效率提高了 3 倍。他们运行了一个基准测试,在 NVIDIA® V100 GPU 上生成 1000 个持续时间约为 20 秒的语句,批大小为 1。平均而言,使用扩散解码器的十亿参数 SpeechGPT 需要 69.1 秒才能完成合成,而使用语音编码解码器的相同 SpeechGPT 只需要 17.8 秒。

更多研究细节,可参考原论文。

产业亚马逊BASE TTS
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

语音处理技术

语音处理(Speech processing),又称语音信号处理、人声处理,其目的是希望做出想要的信号,进一步做语音辨识,应用到手机界面甚至一般生活中,使人与电脑能进行沟通。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

GPT-2技术

GPT-2是OpenAI于2019年2月发布的基于 transformer 的大型语言模型,包含 15 亿参数、在一个 800 万网页数据集上训练而成。据介绍,该模型是对 GPT 模型的直接扩展,在超出 10 倍的数据量上进行训练,参数量也多出了 10 倍。在性能方面,该模型能够生产连贯的文本段落,在许多语言建模基准上取得了 SOTA 表现。而且该模型在没有任务特定训练的情况下,能够做到初步的阅读理解、机器翻译、问答和自动摘要。

语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~