WaveGrad:估计波形生成的梯度
约翰斯・霍普金斯大学研究人员及谷歌大脑团队发布新论文「WaveGrad:估计波形生成的梯度」论文概要如下:本文介绍一种通过估计数据密度梯度来生成波形的条件模型 WaveGrad,基于分数匹配和扩散概率模型的现有工作。 从高斯白噪声开始,并通过基于梅尔谱图的基于梯度的采样器迭代地精化信号。 WaveGrad 是非自回归的,在推理过程中仅需要恒定数量的生成步骤。 它最多可以使用 6 次迭代来生成高保真音频样本。 WaveGrad 易于训练,并且针对对数似然的加权变化下界进行隐式优化。 实验表明 WaveGrad 可以生成高保真音频样本,该样本与基于强似然的自回归基线相匹配,且顺序操作较少。