Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

击败扩散模型,清华朱军团队基于薛定谔桥的新语音合成系统来了

近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统 [1],凭借其 「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的 「噪声到数据」范式。

图片

论文链接:https://arxiv.org/abs/2312.03491
项目网站:https://bridge-tts.github.io/ 
代码实现:https://github.com/thu-ml/Bridge-TTS

问题背景

自 2021 年起,扩散模型(diffusion models)开始成为文本到语音合成(text-to-speech, TTS)领域的核心生成方法之一,如华为诺亚方舟实验室提出的 Grad-TTS [2]、浙江大学提出的 DiffSinger [3] 等方法均实现了较高的生成质量。此后,又有众多研究工作有效提升了扩散模型的采样速度,如通过先验优化 [2,3,4]、模型蒸馏 [5,6]、残差预测 [7] 等方法。然而,如此项研究所示,由于扩散模型受限于「噪声到数据」的生成范式,其先验分布对生成目标提供的信息始终较为有限,对条件信息无法利用充分。

图片

本次语音合成领域的最新研究工作,Bridge-TTS,凭借其基于薛定谔桥的生成框架,实现了「数据到数据」的生成过程,首次将语音合成的先验信息由噪声修改为干净数据由分布修改为确定性表征

该方法的主要架构如上图所示,输入文本首先经由文本编码器提取出生成目标(mel-spectrogram, 梅尔谱)的隐空间表征。此后,与扩散模型将此信息并入噪声分布或用作条件信息不同,Bridge-TTS 的方法‍支持直接将其作为先验信息,并支持通过随机或确定性采样的方式,高质量、快速地生成目标。

工作成果

在验证语音合成质量的标准数据集 LJ-Speech 上,研究团队将 Bridge-TTS 与 9 项高质量的语音合成系统和扩散模型的加速采样方法进行了对比。如下所示,该方法在样本质量上(1000 步、50 步采样)击败了基于扩散模型的高质量 TTS 系统 [2,3,7],并在采样速度上,在无需任何后处理如额外模型蒸馏的条件下,超过了众多加速方法,如残差预测、渐进式蒸馏、以及最新的一致性蒸馏等工作 [5,6,7]。
图片
以下是 Bridge-TTS 与基于扩散模型方法的生成效果示例,更多生成样本对比可访问项目网站:https://bridge-tts.github.io/

  • 1000 步合成效果对比

输入文本:「Printing, then, for our purpose, may be considered as the art of making books by means of movable types.」
  • 4 步合成效果对比

输入文本:「The first books were printed in black letter, i.e. the letter which was a Gothic development of the ancient Roman character,」
  •  2 步合成效果对比

输入文本:「The prison population fluctuated a great deal,」下面展示了 Bridge-TTS 一个在 2 步和 4 步的一个确定性合成(ODE sampling)案例。在 4 步合成中,该方法相较于扩散模型显著合成了更多样本细节,并没有噪声残留的问题。在 2 步合成中,该方法展示出了完全纯净的采样轨迹,并在每一步采样完善了更多的生成细节。
图片
在频域中,更多的生成样本如下所示,在 1000 步合成中,该方法相较于扩散模型生成了更高质量的梅尔谱,当采样步数降到 50 步时,扩散模型已经牺牲了部分采样细节,而基于薛定谔桥的该方法仍然保持着高质量的生成效果。在 4 步和 2 步合成中,该方法不需蒸馏、多阶段训练、和对抗损失函数,仍然实现了高质量的生成效果。

图片

在 1000 步合成中,Bridge-TTS与基于扩散模型的方法的梅尔谱对比

图片

在 50 步合成中,Bridge-TTS与基于扩散模型的方法的梅尔谱对比

图片

在 4 步合成中,Bridge-TTS与基于扩散模型的方法的梅尔谱对比
图片
在 2 步合成中,Bridge-TTS与基于扩散模型的方法的梅尔谱对比

Bridge-TTS一经发布,凭借其在语音合成上新颖的设计与高质量的合成效果,在 Twitter 上引起了热烈关注,获得了百余次转发和数百次点赞,入选了 Huggingface 在 12.7 的 Daily Paper 并在当日获得了支持率第一名,同时在 LinkedIn、微博、知乎、小红书等多个国内外平台被关注与转发报道。

图片

多个外文网站也进行了报道和讨论:

图片

方法介绍

薛定谔桥(Schrodinger Bridge)是一类继扩散模型之后,近期新兴的深度生成模型,在图像生成、图像翻译等领域都有了初步应用 [8,9]。不同于扩散模型在数据和高斯噪声之间建立变换过程,薛定谔桥支持任意两个边界分布之间的转换。在 Bridge-TTS 的研究中,作者们提出了基于成对数据间薛定谔桥的语音合成框架,灵活支持着多种前向过程、预测目标、及采样过程。其方法概览如下图所示:

图片

  • 前向过程:此研究在强信息先验和生成目标之间搭建了一种完全可解的薛定谔桥,支持灵活的前向过程选择,如对称式噪声策略图片、常数图片,和非对称噪声策略: 图片、线性图片,以及直接与扩散模型相对应的方差保持(VP)噪声策略。该方法发现在语音合成任务中非对称噪声策略:即线性图片(gmax)和 VP 过程,相较于对称式噪声策略有更好的生成效果。

图片

图片

  • 模型训练:该方法保持了扩散模型训练过程的多个优点,如单阶段、单模型、和单损失函数等。并且其对比了多种模型参数化(Model parameterization)的方式,即网络训练目标的选择,包括噪声预测(Noise)、生成目标预测(Data)、和对应于扩散模型中流匹配技术 [10,11] 的速度预测(Velocity)等。文章发现以生成目标,即梅尔谱为网络预测目标时,可以取得相对更佳的生成效果。

图片图片

  • 采样过程:得益于该研究中薛定谔桥完全可解的形式,对薛定谔桥对应的前 - 后向 SDE 系统进行变换,作者们得到了 Bridge SDE 和 Bridge ODE 用于推断。同时,由于直接模拟 Bridge SDE/ODE 推断速度较慢,为加快采样,该研究借助了扩散模型中常用的指数积分器 [12,13],给出了薛定谔桥的一阶 SDE 与 ODE 采样形式:

图片

在 1 步采样时,其一阶 SDE 与 ODE 的采样形式共同退化为网络的单步预测。同时,它们与后验采样 / 扩散模型 DDIM 采样有着密切联系,文章在附录中给出了详细分析。文章也同时给出了薛定谔桥的二阶采样 SDE 与 ODE 采样算法。作者发现,在语音合成中,其生成质量与一阶采样过程类似。

在其他任务如语音增强语音分离、语音编辑等先验信息同样较强的任务中,作者们期待此研究也会带来较大的应用价值。

作者简介

此项研究有三位共同第一作者:陈泽华,何冠德,郑凯文,均属于清华大学计算机系朱军课题组,文章通讯作者为朱军教授,微软亚洲研究院首席研究经理谭旭为项目合作者。

图片

                                                  朱军教授

图片

                                                  微软亚洲研究院首席研究经理谭旭

图片

陈泽华是清华大学计算机系水木学者博士后,主要研究方向为概率生成模型,及其在语音、音效、生物电信号合成等方面的应用。曾在微软、京东、TikTok 等多家公司实习,在语音和机器学习领域重要国际会议 ICML/NeurIPS/ICASSP 等发表多篇论文。

图片

何冠德是清华大学在读的三年级硕士生,主要研究方向是不确定性估计与生成模型,此前在 ICLR 等会议以第一作者身份发表论文。

图片

郑凯文是清华大学在读的二年级硕士生,主要研究方向是深度生成模型的理论与算法,及其在图像、音频和 3D 生成中的应用。此前在 ICML/NeurIPS/CVPR 等顶级会议发表多篇论文,涉及了扩散模型中的流匹配和指数积分器等技术。

参考文献:
[1] Zehua Chen, Guande He, Kaiwen Zheng, Xu Tan, and Jun Zhu. Schrodinger Bridges Beat Diffusion Models on Text-to-Speech Synthesis. arXiv preprint arXiv:2312.03491, 2023.
[2] Vadim Popov, Ivan Vovk, Vladimir Gogoryan, Tasnima Sadekova, and Mikhail A. Kudinov. Grad-TTS: A Diffusion Probabilistic Model for Text-to-Speech. In ICML, 2021.
[3] Jinglin Liu, Chengxi Li, Yi Ren, Feiyang Chen, and Zhou Zhao. DiffSinger: Singing Voice Synthesis via Shallow Diffusion Mechanism. In AAAI, 2022.
[4] Sang-gil Lee, Heeseung Kim, Chaehun Shin, Xu Tan, Chang Liu, Qi Meng, Tao Qin, Wei Chen, Sungroh Yoon, and Tie-Yan Liu. PriorGrad: Improving Conditional Denoising Diffusion Models with Data-Dependent Adaptive Prior. In ICLR, 2022.
[5] Rongjie Huang, Zhou Zhao, Huadai Liu, Jinglin Liu, Chenye Cui, and Yi Ren. ProDiff: Progressive Fast Diffusion Model For High-Quality Text-to-Speech. In ACM Multimedia, 2022.
[6] Zhen Ye, Wei Xue, Xu Tan, Jie Chen, Qifeng Liu, and Yike Guo. CoMoSpeech: One-Step Speech and Singing Voice Synthesis via Consistency Model. In ACM Multimedia, 2023.
[7] Zehua Chen, Yihan Wu, Yichong Leng, Jiawei Chen, Haohe Liu, Xu Tan, Yang Cui, Ke Wang, Lei He, Sheng Zhao, Jiang Bian, and Danilo P. Mandic. ResGrad: Residual Denoising Diffusion Probabilistic Models for Text to Speech. arXiv preprint arXiv:2212.14518, 2022.
[8] Yuyang Shi, Valentin De Bortoli, Andrew Campbell, and Arnaud Doucet. Diffusion Schrödinger Bridge Matching. In NeurIPS 2023.
[9] Guan-Horng Liu, Arash Vahdat, De-An Huang, Evangelos A. Theodorou, Weili Nie, and Anima Anandkumar. I2SB: Image-to-Image Schrödinger Bridge. In ICML, 2023.
[10] Yaron Lipman, Ricky T. Q. Chen, Heli Ben-Hamu, Maximilian Nickel, and Matt Le. Flow Matching for Generative Modeling. In ICLR, 2023.
[11] Kaiwen Zheng, Cheng Lu, Jianfei Chen, and Jun Zhu. Improved Techniques for Maximum Likelihood Estimation for Diffusion ODEs. In ICML, 2023.
[12] Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, and Jun Zhu. DPM-Solver: A Fast ODE Solver for Diffusion Probabilistic Model Sampling in Around 10 Steps. In NeurIPS, 2022.
[13] Kaiwen Zheng, Cheng Lu, Jianfei Chen, and Jun Zhu. DPM-Solver-v3: Improved Diffusion ODE Solver with Empirical Model Statistics. In NeurIPS, 2023.
产业Bridge-TTS
相关数据
微软亚洲研究院机构

微软亚洲研究院于1998年在北京成立,是微软公司在亚太地区设立的基础及应用研究机构,也是微软在美国本土以外规模最大的一个研究院。微软亚洲研究院从事自然用户界面、智能多媒体、大数据与知识挖掘、人工智能、云和边缘计算、计算机科学基础等领域的研究,致力于推动计算机科学前沿发展,着眼下一代革命性技术的创新,助力微软实现长远发展战略。

http://www.msra.cn
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
朱军人物

朱军,清华大学计算机系长聘副教授、卡内基梅隆大学兼职教授。2001 到 2009 年获清华大学计算机学士和博士学位,之后在卡内基梅隆大学做博士后,2011 年回清华任教。主要从事人工智能基础理论、高效算法及相关应用研究,在国际重要期刊与会议发表学术论文百余篇。担任人工智能顶级杂志 IEEE TPAMI 和 AI 的编委、《自动化学报》编委,担任机器学习国际大会 ICML2014 地区联合主席, ICML (2014-2018)、NIPS (2013, 2015, 2018)、UAI (2014-2018)、IJCAI(2015,2017)、AAAI(2016-2018)等国际会议的领域主席。获 CCF 自然科学一等奖、CCF 青年科学家奖、国家优秀青年基金、中创软件人才奖、北京市优秀青年人才奖等,入选国家「万人计划」青年拔尖人才、MIT TR35 中国区先锋者、IEEE Intelligent Systems 杂志评选的「AI's 10 to Watch」(人工智能青年十杰)、及清华大学 221 基础研究人才计划。

语音增强技术

语音增强旨在通过利用信号处理算法提高语音的质量和可懂度。 主要包括1. 语音解混响,混响是由于空间环境对声音信号的反射产生的;2,语音降噪,干扰主要来源于各种环境和人的噪声;3. 语音分离,噪声主要来源于其他说话人的声音信号。通过去除这些噪声或者人声来提高语音的质量。现已经应用于现实生活中,如电话、语音识别、助听器、VoIP以及电话会议系统等。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

深度生成模型技术

深度生成模型基本都是以某种方式寻找并表达(多变量)数据的概率分布。有基于无向图模型(马尔可夫模型)的联合概率分布模型,另外就是基于有向图模型(贝叶斯模型)的条件概率分布。前者的模型是构建隐含层(latent)和显示层(visible)的联合概率,然后去采样。基于有向图的则是寻找latent和visible之间的条件概率分布,也就是给定一个随机采样的隐含层,模型可以生成数据。 生成模型的训练是一个非监督过程,输入只需要无标签的数据。除了可以生成数据,还可以用于半监督的学习。比如,先利用大量无标签数据训练好模型,然后利用模型去提取数据特征(即从数据层到隐含层的编码过程),之后用数据特征结合标签去训练最终的网络模型。另一种方法是利用生成模型网络中的参数去初始化监督训练中的网络模型,当然,两个模型需要结构一致。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东零售、京东物流、京东科技子集团、印尼&泰国海外合资跨境电商等核心业务。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作。

https://www.jd.com
相关技术
知乎机构

知乎,中文互联网综合性内容平台,自 2010 年成立以来,知乎凭借认真、专业、友善的社区氛围,独特的产品机制,以及结构化、易获得的优质内容,聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群,已成为综合性、全品类,在诸多领域具有关键影响力的内容平台。知乎将AI广泛应用与社区,构建了人、内容之间的多元连接,提升了社区的运转效率和用户体验。知乎通过内容生产、分发,社区治理等领域的AI应用,也创造了独有的技术优势和社区AI创新样本。

zhihu.com
语音合成技术

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

语音分离技术

语音分离是指将不同说话者的声音分离或将噪声(背景干扰)与原始音频信号分离。

推荐文章
暂无评论
暂无评论~