Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

参与刘晓坤 张倩

论文撞车英伟达,一作「哭晕在厕所」,英伟达:要不要来实习?

英伟达率先发表了相似的工作,让千里之外的几位研究者一脸懵逼,于是决定公布代码以示没有剽窃。

来自韩国首尔大学的研究者近期发布了一篇利用基于流的生成模型进行实时的语音合成的研究 FloWaveNet。但奇怪的是,他们的论文中并没有语音合成中典型的人类评估 MOS(平均意见分数)指标,甚至一个实验图标都没有。原因很有趣:他们发现英伟达在前几天发布的论文 WaveGlow 竟然和 FloWaveNet 在主要思想上几乎完全相同,都提出了基于流的语音合成方法。

为此,论文二作赶紧将代码、生成样本以及 arXiv 手稿放了出来,并在 Reddit 上公告,然后苦苦思索如何安慰在实验室角落哭泣的一作。

Reddit 网友纷纷伸出援手安慰一作:

你和领域巨头的想法碰撞到一起了,这是好事不是吗?

WaveGlow 仍然只是一篇 arXiv 论文,所以不用担心,顺便提一下,Nice Work!

我的朋友,深有同感。我几周前和谷歌撞车,几个月前还和 DeepMind 撞车。我是搞人工智能的,又不是开碰碰车的。我在提交关于音频生成的论文之前,谷歌发布了类似的工作 Nsynth。我使用了简单的基于自编码器的生成模型,而谷歌的 Nsynth 基本思想一样,但规模大得多,并且能结合其它很多先进的方法。作为个人很难和拥有更多工程师、研究员和资源的巨头竞争。这是一个竞争激烈的行业,很难做出完全独特的研究。但是没关系,做好你自己的研究,并基于此不断地改进,也是我们需要的研究态度。

英伟达也开源了 WaveGlow 的代码,所以你们可以更细致地比较你们研究之间的不同。

  • WaveGlow:https://github.com/NVIDIA/waveglow

  • FloWaveNet:https://github.com/ksw0306/FloWaveNet

  • FloWaveNet 生成样本地址:https://drive.google.com/drive/folders/1RPo8e35lhqwOrMrBf1cVXqnF9hzxsunU

这两篇论文到底有多相似?我们一起感受一下。

论文:FloWaveNet : A Generative Flow for Raw Audio

论文地址:https://arxiv.org/pdf/1811.02155.pdf

摘要:大多数文本到语音的架构使用了 WaveNet 语音编码器来合成高保真的音频波形,但由于自回归采样太慢,其在实际应用中存在局限性。人们近期提出的 Parallel WaveNet 通过整合逆向自回归流(IAF)到并行采样中实现了实时的音频合成。然而,Parallel WaveNet 需要两个阶段的训练流水线,其中设计一个训练良好的教师网络,并且如果仅使用 probability distillation 训练容易导致模式崩溃。FloWaveNet 仅需要单个最大似然损失函数,而不需要任何其它辅助项,并且由于基于流的变换的使用,其内在地是并行的。该模型可以高效地实时采样原始音频,其语音清晰度和 WaveNet 以及 ClariNet 相当。

图 1:FloWaveNet 模型图示。左图:FloWaveNet 的整个前向传播过程,由 N 个上下文模块构成。中间:流操作的抽象图示。右图:affine coupling 操作细节。

论文:WAVEGLOW: A FLOW-BASED GENERATIVE NETWORK FOR SPEECH SYNTHESIS 

论文地址:https://arxiv.org/pdf/1811.00002.pdf

摘要:在本文中我们提出了 WaveGlow,这是一个基于流的可以从梅尔谱图生成高质量语音的网络。WaveGlow 结合了 Glow 和 WaveNet 的思想,以提供快速、高效和高质量的音频合成,不需要使用自回归。WaveGlow 仅使用单个网络实现,用单个损失函数训练:最大化训练数据的似然度,这使得训练过程简单而稳定。平均意见分数评估表明该方法能生成和最佳的 WaveNet 实现质量相当的结果。

图 1: WaveGlow 模型图示。

表 1:WaveGlow 平均意见分数评估结果。

我们大致能看到:FloWaveNet 和 WaveNet 都采用了基于流的生成模型思想;摒弃了自回归;摒弃两阶段训练过程;不需要额外辅助损失项;只需要似然度作为损失函数;只需要一个网络;能生成和 WaveNet 质量相当的语音...... 如此正面刚的撞车,难怪一作疼的流泪。

当然,通过后面对基于流的生成模型的解释,我们能发现,他们的研究的大部分重合点就是对这种模型的采用,其它的都是连带效应。这到底是什么样的生成模型,可以一己之力扭转乾坤,还让相隔千里的 AI 研究者垂涎仰望,不觉撞车?

其实,最惊喜/惊奇的援手还是来自他们的冤大头——英伟达。WaveGlow 的作者之一 Bryan Catanzaro 在 Reddit 上称赞了他们的工作,还邀请他们去实习,在语音生成研究上合作......

学术界也是充满了戏剧性~

为什么要选择基于流的生成模型

基于流的生成模型是继 GAN 和 VAE 之后的第三种生成模型,但这只是很多人的初步印象。其实这种模型在 2014 年就被提出,比 GAN 还早,但仅在近期由于 OpenAI 提出了 Glow 模型才被人注意到。基于流的生成模型具有可逆和内在并行性的优点。

实际上,生成模型可以分为四个类别:自回归、GAN、VAE、flow-based(基于流)。以图像生成为例,自回归模型需要逐像素地生成整张图像,每次新生成的像素会作为生成下一个像素的输入。这种模型计算成本高,并行性很差,在大规模生成任务中性能有限。上述的 WaveNet 就是一种自回归模型,最大的缺点就是慢。其它典型的自回归模型还有 PixelRNN 和 PixelCNN。此外,自回归模型也是可逆的。相对于自回归模型,基于流的生成模型的优势是其并行性。

相对于 VAE 和 GAN,基于流的生成模型的优势是:可以用隐变量精确地建模真实数据的分布,即精确估计对数似然,得益于其可逆性。而 VAE 尽管是隐变量模型,但只能推断真实分布的近似值,而隐变量分布与真实分布之间的 gap 是不可度量的,这也是 VAE 的生成图像模糊的原因。GAN 是一种学习范式,并不特定于某种模型架构,并且由于其存在两个模型互相博弈的特点,理论的近似极限也是无法确定的。基于流的生成模型却可以在理论上保证可以完全逼近真实的数据分布。

有这么多的优点,以一己之力轻松克服 WaveNet 的缺点也不是什么难事了,至于更深入的细节,还请参阅原论文。

基于流的生成模型可以大致理解为:它希望将数据表示成简单的隐变量分布,并可以从该分布中完全还原真实数据的分布。也就是说,它要学习的是一个可逆函数。利用雅可比矩阵的这个性质:一个函数的雅可比矩阵的逆矩阵,是该函数的反函数的雅可比矩阵,NICE 和 RealNVP 提出了通过顺序的可逆函数变换,将简单分布逐步还原复杂的真实数据分布的归一化流过程,如下图所示。后来在 Glow 中提出用 1x1 可逆卷积替换 NICE 和 RealNVP 中的可逆变换。

由于可以进行精确的密度估计,基于流的生成模型在很多下游任务中具备天然优势,例如数据补全、数据插值、新数据生成等。

在 Glow 中,这种模型展示了其在图像生成和图像属性操控上的潜力:

Glow 实现的人脸图像属性操作。训练过程中没有给模型提供属性标签,但它学习了一个潜在空间,其中的特定方向对应于胡须密度、年龄、头发颜色等属性的变化。

这类模型是不是能超越 GAN 不好说,但相对于 VAE 还是有很明显的优势,在未来的生成模型研究领域中也是非常值得期待和关注的方向。

参考内容

https://lilianweng.github.io/lil-log/2018/10/13/flow-based-deep-generative-models.html

https://www.reddit.com/r/MachineLearning/comments/9uxbbj/p_flowavenet_a_generative_flow_for_raw_audio/

理论英伟达语音合成论文
4
相关数据
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

损失函数技术

在数学优化,统计学,计量经济学,决策理论,机器学习和计算神经科学等领域,损失函数或成本函数是将一或多个变量的一个事件或值映射为可以直观地表示某种与之相关“成本”的实数的函数。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

插值技术

数学的数值分析领域中,内插或称插值(英语:interpolation)是一种通过已知的、离散的数据点,在范围内推求新数据点的过程或方法。求解科学和工程的问题时,通常有许多数据点借由采样、实验等方法获得,这些数据可能代表了有限个数值函数,其中自变量的值。而根据这些数据,我们往往希望得到一个连续的函数(也就是曲线);或者更密集的离散方程与已知数据互相吻合,这个过程叫做拟合。

雅可比矩阵技术

在向量分析中,雅可比矩阵是函数的一阶偏导数以一定方式排列成的矩阵,其行列式称为雅可比行列式。在代数几何中,代数曲线的雅可比行列式表示雅可比簇:伴随该曲线的一个代数群,曲线可以嵌入其中。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

推荐文章
暂无评论
暂无评论~