生成式建模指给定一定量数据观察下,学习其潜在的数据分布。经过学习后的生成模型可以合成类似真实的数据样本,从而赋予智能体模仿人类的创造能力。来自中山大学的研究者们从粒子随机演化的角度重新看待基于能量的经典生成式模型——FRAME模型中样本的生成过程,他们利用Jordan-Kinderlehrer-Otto(JKO)离散流代替KL离散流,改进了采样粒子的演变以及参数估计的迭代方式,且不破坏原模型的统计连续性。
背景:基于能量的生成模型
提到生成式建模,读者们总是第一时间想到生成对抗网络 (generative adversarial network, GAN)。GAN 采用隐式的生成式建模方法 [8],其先假定一个较为简单的随机变量的分布如高斯分布,,后使用可学的非线性转换函数(一般为神经网络)将其映射到数据空间X(如下图所示)。
图片来源:Princeton Machine Learning Summer School 2018
GAN 对近年的生成模型发展具有重大的贡献。但其使用对抗学习额外引入辅佐判别网络,带来了复杂的优化问题。而且其隐式建模方法最近也在某些研究上受到质疑 [9,10],因为其学到的分布未必能对真实数据的潜在分布构成有效的逼近关系。因此,各类生成模型范式如变分推动自编码器 (variational auto-encoder, VAE),基于能量生成模型 (energy-based generative models, EBM),流模型 (flow-based generative models, FBM) 等也是方兴未艾。
值得注意的是,早在 GAN 风靡的十多年前,EBM 便被成功引入到了纹理合成、风格迁移等计算机视觉生成问题中。不同于 GAN,EBM 采用显式的似然函数进行学习。其基于数据驱动的学习方式来刻画能量表面,即那些可以被该模型正确描述的样本会被分配到低能量区域,反之会被分配到较高能量的区域。它们通常直接通过显式的对数密度函数来给定复杂数据的分布,一般型为
其中为配分函数。与 GAN 相比,EBM 不需要引入额外的辅助网络,这使得其在算法上更容易直接优化;而显式建模的特点也让学的模型能够对数据分布进行有效逼近。相应地,EBM 通常需要使用 Markov Chain Monte Carlo(MCMC)从对数配分函数中采样。如下图,深色区域代表低能量区域,反之为高能量区域,黑点表示样本或者粒子,黑线表示粒子迭代的路线。和 SGD 一样,这些粒子需要经过多步长的随机游走至低能量表面才能代表当前模型参数下被采样的样本。
图片来源:Princeton Machine Learning Summer School 2018
因此从 EBM 的计算效率上来说,其多步长的采样算法不如基于平摊变分推断 (amortized variational inference) 的 VAE 或者直接建模隐式映射的 GAN 高。但得益于 MCMC 方法的高精度特性,EBM 生成的样本往往比 GAN 等模型更具有明显的结构特征,且实践中往往表现出极强的小样本学习生成能力,因此值得进一步深挖研究。
基于能量的生成模型代表:FRAME
稀疏 FRAME(Filters, Random fields, And Maximum Entropy)模型 [1] 是 UCLA 朱松纯教授从统计的角度提出的 EBM,顾名思义,是滤波器,随机场和最大熵理论的融合。如图 1 所示为该模型的图模型表达。
图 1. FRAME 图模型
可以很明显地看出该模型主要由两部分组成,即,将数据空间映射为隐空间的滤波器 f 以及建立在隐空间 h 上的马尔可夫随机场(MRF)。FRAME 模型建模的主要目的在于寻找对应于数据 x 的隐空间h的最优表达θ, 所以 FRAME 更像是一种描述数据隐空间表达的的描述性生成模型。值得注意的是 h 与 θ 的关系是纯线性的,早期的 FRAME 模型直接使用最小化隐空间直方图误差和最大化模型熵的方式进行训练,可看为一个对抗的 mini-max 游戏 [11]。即使模型完全线性且采用诸如 Gabor filter 或者 Gabor wavelet 的传统手工滤波器,其在早期的计算机视觉研究中仍是一个强有力的无监督模型。
随着研究问题越来越实际和数据维度越来越高,稀疏 FRAME 模型在复杂问题上的表达能力和泛化能力受到限制,一度被人们所忘记。然而随着深度卷积网络的兴起,通过使用大量预训练的非线性滤波器来替换传统的线性滤波器,并对理论做出恰当的改进,Lu 等人于 2015 年提出的深度 FRAME 模型 [2] 很大程度缓解了这一问题,且仍然为如图 1 所示的 MRF。即使这样,深度 FRAME 模型仍然过于线性,缺乏更强的泛化能力。
一个直观的解决方案便是像堆叠 RBM 那样堆叠 FRAME 模型并引入非线性激活函数,最好可以将已经研究成熟的 CNN 中的卷积滤波器参数像 MRF 那样也看为对当前层隐空间的表达,不过前提条件是要约束每个卷积层的激活函数和模型的参考分布,就这样 Xie 等人将深度 FRAME 模型拓展为多层的 FRAME 模型 [3],该模型本质上是一个自底向上的深度卷积判别网络。为了提升采样和学习的效率,该模型的多栅版本于最近被提出 [4],即多层多栅的 FRAME 模型。以上模型均采用最大似然估计来学习网络参数以及使用随机梯度 Langevin dynamics 的迭代方法从已知的对数似然中采样。
采样和学习算法有效果,但仍存在不足
即使这样,以上的类 FRAME 模型仍存在一些不尽人意的地方。其中最直接的问题在于,当引入深度滤波器导致参数过多的情况下,最大似然的参数估计方式是否还适用于该模型?原有的采样算法是否因参数更新的不合理而变得不鲁棒?因为这样的参数估计方式并未给出合理的约束来防止模型过拟合或崩溃。
为了解决这样的问题,往往需要跳出传统的理论框架,来自中山大学的研究者们便从粒子随机演化的角度重新看待基于能量的经典产生式模型——FRAME 模型中样本的生成过程,论文如下。
论文:FRAME Revisited: An Interpretation View Based on Particle Evolution
论文链接:https://arxiv.org/pdf/1812.01186
简单概括就是他们利用 Jordan-Kinderlehrer-Otto(JKO)离散流 [5] 代替 KL 离散流,改进了采样粒子的演变以及参数估计的迭代方式,且不破坏原模型的统计连续性。
首先,众所周知的是,最大似然估计是通过一步步最小化需要优化的分布 P_θ 和目标分布 P_r 之间的 Kullback-Leiber(KL)距离来使 P_θ 逼近 P_r 的。事实上,最小 KL 距离实际上就是做垂直投影,这种垂直投影的方式事实上并不平滑,可能会导致训练的不稳定甚至模型退化。为了解释这种现象,我们可以从模型的熵 H(P_θ) 出发:在物理学中熵可以描述系统能量的耗散。P_θ 从覆盖所有支撑集的高斯分布作为起始,这时模型的熵值最大,随即 P_θ 需要逐渐演化为并不存在的目标分布 P_r,这个过程中熵是会随着能量耗散而减少的。然而为了能完美地描述 P_r,熵值需要最大化以至于能包含所有 P_r 的可能性,所以实际上模型的能量耗散是一个 min-max 函数。可以看出,如果模型的能量很高则意味着模型很混乱,可能性太繁杂;模型的能量很低则代表模型退化,包含的信息微乎其微,因此训练得当的模型的能量应该为一个适中值。
将样本看作布朗粒子
大量的实验表明,通过迭代最小化 KL 距离的方式会让能量的耗散过程极其不稳定,体现为深度 FRAME 模型的能量对诸如预设迭代步长、样本更新速率、参数学习率等超参数异常敏感,以致于能量往往降的非常低,即模型退化,称之为 KL-vanishing。为了解决这个问题,可以将每个样本视为布朗粒子,可以证明,若这些粒子都由一个具有马尔可夫随机场性质母函数所生成,则它们的经验分布满足大偏差原理,其速率函数为,称 I_t 为离散 KL 流。还可以证明的是,在 I_t 的驱动下,深度 FRAME 模型中样本 x 和参数 θ 的如图 2 的迭代过程实际上在履行变分推断,以逼近真实概率分布,类似的思想也在 ICLR2018 的一篇关于深度神经网络中随机梯度下降(SGD)在进行变分推断的文章中被提及 [12]。
图 2. 样本和参数的交替迭代过程
只不过对于 FRAME 模型来说,作者考虑的模型更加特殊和具体,因此证明过程也更加简洁。除此之外,作者从粒子演化角度导出的结果和深度 FRAME 模型基于数理模型推导的结果恰好一致,说明从粒子演化的角度看待这个模型是完全合理且正确的。
引入离散 JKO 流
容易观察到,在不同离散流的驱动下,迭代的过程会产生差异。那么是否可以用其他更平滑的离散流来代替呢?他们的工作给出了肯定的答案。得益于 Jordan[3] 等人在 1998 年对富克—普朗克方程的研究,他们发现这种复杂的偏微分方程的解析解可以通过逐步迭代离散 JKO 流的方式来逼近,如下所示。
因此,作者选择了特定的方程系数以及项来使得其解析解满足型如式 1 的深度 FRAME 模型型式,这样便可通过计算来学习它,并能维持其统计型式。此外,计算的好处在于,可以将原目标分布 P_θ 在 Wasserstein 空间中优化,相当于在最小化 Wasserstein 距离。Montavon 等人 [4] 在一文中指出,有时候 P_θ 在 KL 距离的情况下和经验分布 p_t 很接近,但在 Wasserstein 的度量下更远;WGAN[5] 的作者同样也表明由于 Wasserstein 度量定义的拓扑较弱,我们往往能获得更加理想的收敛情况和逼近结果。剩下的问题便是如何求导这个棘手的 Wasserstein 距离,与其它直接使用对偶 Wasserstein 距离的方式不同,这篇文章考虑的问题是微观的且需要粒子的传输路径更平滑,因此 Benamou-Brenier 型式的 Wasserstein 距离必不可少,如式 2 所示。
之后作者便对巧妙地运用了积分中值第二定律,给出了其估计型式,且得到经验分布 p_t 的函数导数。最后经过简单的推导,以驱动的深度 FRAME 模型的样本和参数的迭代过程为:
到这里,作者的工作便完成了,简单地说,就是优化了原始模型中的迭代过程。新的 wFRAME 模型通过计算 JKO 流关于 Wasserstein 距离的梯度,使迭代过程更加平滑且避免了 KL-vanishing 问题。但到底是否真的平滑了呢,还需要实验来验证。
稳定性实验
图 3 所示的是两个算法在生成航天飞船时的样本的迭代过程及能量耗散曲线,可以明显的看出,第二行的 wFRAME 生成的图片品质更高,随着 FRAME 生成图片的质量变差,我们可以从右侧的能量曲线中观察到其能量降的非常之低,模型此时已经退化甚至坍塌。就像之前提到的,能量曲线的不稳定意味着迭代的不稳定以及其能量值的不合理,也印证了作者的算法是着实有效的。
图 3. 两种算法生成样本稳定性实验
常用数据集实验
文章中还有更详细的模型坍塌实验对比,感兴趣的同学可以阅读原文。确认并改进了模型的坍缩问题之后,作者又在诸如 Cifar-10,CelebA 等常用数据集上做了实验,结果如图 4 所示,其中左图为 FRAME 模型的结果,右图为文中算法的结果。
图 4. CelebA 及 Cifar 图片合成效果展示,其中 Cifar 为条件生成。
除了能解决 FRAME 模型训练坍塌的问题,wFRAME 还能略微改善生成图片的质量,加速模型的收敛。譬如他们的 Inception Score 相比 FRAME 提升了 1.1,以及生成图的特征距离也和原图更加接近,如图 5 所示。
图 5. 不同数据集上的平均学习曲线
小样本学习
许多实验和文章都曾指出 GAN 在学习小样本数据分布的实验中往往表现得差强人意,甚至在不同的小数据集中需要设置特定的网络结构以及使用特殊的超参数才能取得一定的效果。然而 EBM 模型不仅可以在常用的大数据集中有着与 GAN 相当的效果,其在小样本上的生成更是游刃有余,如图 6 所示。为了对比,DCGAN 使用默认的参数和网络结构,对于仅仅 5 张输入图片,DCGAN 完全不能收敛并学习到更加具体的数据分布。然而作者改进后的模型仅仅几十个 epoch 之后就能呈现如下的效果。
图 6. 小样本生成结果对比
结语
综上便是对一类特殊的 EBM 生成式模型——FRAME 家族的简要介绍,感兴趣的同学可以详细阅读相关文献。为此我们还着重介绍了一篇改善该系列模型样本生成质量的文章,该文章的创新之处主要分为两点。首先作者从粒子演化的角度重新解读了之前 FRAME 模型研究历程中一直被忽略的模型易坍塌,样本生成质量差等问题。其次也是最重要的一个贡献便为他们从理论上合理地引入离散 JKO 流来改进 KL 流所存在的不足,并通过实验证实了他们的想法。经笔者尝试,新算法同样也适用于新提出的多栅或多层的 FRAME 模型,更重要的是,也许未来作者的这种采样和学习算法会被用到其他基于能量的模型中去,传统的 EBM 可能也会因此变得更加鲁棒。
参考文献
[1].Zhu, S. C., Wu, Y., & Mumford, D. (1998). Filters, random fields and maximum entropy (FRAME): Towards a unified theory for texture modeling. International Journal of Computer Vision, 27(2), 107-126.
[2].Lu, Y., Zhu, S. C., & Wu, Y. N. (2015). Learning FRAME models using CNN filters. arXiv preprint arXiv:1509.08379.
[3].Xie, Jianwen, et al. "A theory of generative convnet." International Conference on Machine Learning. 2016.
[4].Gao, Ruiqi, et al. "Learning Generative ConvNets via Multi-grid Modeling and Sampling." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018.
[5].Jordan, R., Kinderlehrer, D., & Otto, F. (1998). The variational formulation of the Fokker--Planck equation. SIAM journal on mathematical analysis, 29(1), 1-17.
[6].Montavon, G., Müller, K. R., & Cuturi, M. (2016). Wasserstein training of restricted Boltzmann machines. In Advances in Neural Information Processing Systems (pp. 3718-3726).
[7].Arjovsky, M., Chintala, S., & Bottou, L. (2017, July). Wasserstein generative adversarial networks. In International Conference on Machine Learning (pp. 214-223).
[8].Bottou, L., Arjovsky, M. Geometrical insights for implicit generative modeling (https://leon.bottou.org/publications/pdf/geometry-2018.pdf)
[9].S Arora, R Ge, Y Liang, T Ma, Y Zhang. Generalization and equilibrium in generative adversarial nets (gans). In International Conference on Machine Learning 2017
[10].S Arora. Do GANs Actually Learn the Distribution?
[11].Zhu, Song Chun, Ying Nian Wu, and David Mumford. "Minimax entropy principle and its application to texture modeling." Neural computation 9.8 (1997): 1627-1660.
[12].Chaudhari, Pratik, and Stefano Soatto. "Stochastic gradient descent performs variational inference, converges to limit cycles for deep networks." (2018).