变分贝叶斯方法 | 机器之心

简介

变分贝叶斯是一类用于贝叶斯估计和机器学习领域中近似计算复杂（intractable）积分的技术。它主要应用于复杂的统计模型中，这种模型一般包括三类变量：观测变量(observed variables, data)，未知参数（parameters）和潜变量（latent variables）。在贝叶斯推断中，参数和潜变量统称为不可观测变量(unobserved variables)。变分贝叶斯方法主要是两个目的:

近似不可观测变量的后验概率，以便通过这些变量作出统计推断。
对一个特定的模型，给出观测变量的边缘似然函数 marginal probability（或称为证据，evidence）的下界。主要用于模型的选择，认为模型的边缘似然值越高，则模型对数据拟合程度越好，该模型产生Data的概率也越高。

对于第一个目的，蒙特卡洛模拟Monte Carlo sampling ，特别是用Gibbs取样的MCMC方法，可以近似计算复杂的后验分布，能很好地应用到贝叶斯统计推断。此方法通过大量的样本估计真实的后验，因而近似结果带有一定的随机性。与此不同的是，变分贝叶斯方法提供一种局部最优，但具有确定解的近似后验方法。

从某种角度看，变分贝叶斯可以看做是EM算法的扩展，因为它也是采用极大后验估计(MAP)，即用单个最有可能的参数值来代替完全贝叶斯估计。另外，变分贝叶斯也通过一组相互依然（mutually dependent）的等式进行不断的迭代来获得最优解。

【wiki, 来源：https://en.wikipedia.org/wiki/Variational_Bayesian_methods 】

问题：

对于许多模型，精确推断在计算上是不可行的。出现这种情况有两个（主要原因）：

•分布可能有复杂的形式（如：生成模型中的非线性）

•“解释”“explaining away” 会导致观察结果的耦合：观察child的值,它会诱导出其父母之间的依赖

但是仍然可以使用近似推理技术来估计这些模型的潜在变量。

Variational Appoximations：

假设最大化的目标是likelihood \ln p(y|θ) ln p(y|θ)

任意隐藏变量的分布q(x)定义了在ln p(y|θ)上的一个最低下限：

\ln p(y|θ) \geq \sum_{x}^{} q(x)\ln \frac{p(x,y|θ) }{q(x)}= F(q,θ)

将q（x）约束为特定易处理形式（例如分解,factorised）并在受到此约束的情况下最大化F

E步骤：最大化F w.r.t. q,此时θ固定，受q约束，等效最小化（详细请看EM算法）：

\ln p(y|θ) -F(q,θ)= \sum_{x}^{} q(x)\ln \frac{q(x) }{p(x|y,θ)}= KL(q||p)

因此，推理步骤试图找到最接近精确后验分布的q。

•M步骤：最大化F w.r.t. θ，此时q固定

Variational Approximations for Bayesian Learning：

模型结构和过拟合的例子：

这时候可以考虑线性高斯状态空间模型中有多少个状态变量？

Using Bayesian Occam’s Razor to Learn Model Structure 使用Bayesian Occam’s Razor学习模型结构：

选择模型类m，可以在给定的数据中的最大的可能性

p(m|y) = \frac{ p(y|m)p(m) }{p(y)}，

p(y|m) = \smallint p(y| \theta ,m)p(\theta | m)d \theta

解释边际可能性（“evidence”）：概率,从先前随机选择的参数将生成y。

太简单的模型类不太可能生成数据集。过于复杂的模型类可以生成太多可能的数据集，因此，它们也不太可能随机生成该特定数据集

Bayesian Model Selection: Occam’s Razor at Work

Computing Marginal Likelihoods can be Computationally Intractable

计算边际似然可能在计算上难以处理

p(y|m) = \smallint p(y| \theta ,m)p(\theta | m)d \theta

这可以是非常高维的积分。

•潜在变量的存在导致需要被边缘化额外的维度。

p(y|m) = \iint p(y| \theta ,m)p(\theta | m)dxd \theta

• 这种似然项可能很复杂。

Practical Bayesian approaches

• Laplace approximations: – 对渐近正态性适用，对参数的后验模式进行高斯近似。

• Large sample approximations (e.g. BIC).大样本近似值

• Markov chain Monte Carlo methods (MCMC):

– 在极限内收敛到所需的分布，但是：

- 需要许多样本来确保准确性。

- 有时难以达到收敛的，可信赖的marginal likelihood。

• Variational approximations...

Note:其他确定性近似值现在也可用: e.g. Bethe/Kikuchi approximations, Expectation Propagation, Tree-based reparameterizations.

Lower Bounding the Marginal Likelihood Variational Bayesian Learning

设潜在变量为x，数据y和参数θ。

可以降低Marginal Likelihood（通过Jensen’s inequality）：

使用更简单的因式近似：q(x, θ) ≈ qx(x)qθ(θ):

最大化最低界限, F_m, 使得l EM-like 的迭代更新i:

最大化F_m相当于最小化近似后验，qθ（θ）qx（x）和真后验，p（θ，x | y，m）之间的KL-divergence:

在 n → ∞下, f对于可识别模型，变分下界接近Schwartz（1978）BIC准则。

The Variational Bayesian EM algorithm

Properties:

• 简化到 EM algorithm ，当 q_θ(θ) = δ(θ − θ *).

• F_m单调增加，有包含模型复杂性惩罚。Fm increases monotonically, and incorporates the model complexity penalty.

•分析参数分布（但不限于高斯分布）。

•VB-E步骤与相应的E步骤具有相同的复杂性。

•可以在VB-EM的VB-E步骤中使用连接树，置信传播，卡尔曼滤波器（belief propagation, Kalman filter）等算法，但是需要使用预期的自然参数φ¯。

The Variational Bayesian EM algorithm 已经运到到很多近似贝叶斯学习中：

• probabilistic PCA and factor analysis

• mixtures of Gaussians and mixtures of factor analysers

• hidden Markov models

• state-space models (linear dynamical systems)

• independent components analysis (ICA) and mixtures • discrete graphical models...

【出处： http://www.cs.cmu.edu/~tom/10-702/Zoubin-702.pdf 】

问题描述

在变分推理中, 在一组未观察到的变量上的后验分布Z={Z1,...,Zn} 给定一些数据X的一组未观察变量的后验分布近似于变分分布Q(Z)，

f(Z|X) \approx Q(X)

这种分布Q(Z)被限制为属于一种比P（Z|X）更简单形式的分布，其目的是使Q(Z)与真正的后验P（Z|X）相似。相似性是用不同的函数d(Q;P)来衡量的，因此通过选择Q(Z)的分布来最小化d(Q;P)来进行推理。

最常见的变分贝叶斯使用Kullback-Leibler散度作为Pfrom Q的不相似函数。这种选择使最小化变得容易。kl散度定义为

D_{KL}(Q||P) \triangleq \sum\nolimits_{Z} \lg \frac{Q(X)}{P(Z|X)}

注意，Q和P与人们预期的相反。这种反向KL-divergence的使用在概念上与期望最大化算法相似。

变分技术通常用于形成一个近似:

P(Z|X)= \frac{P(Z|X) \times P(X)}{P(X)} = \frac{P(Z|X) \times P(X)}{\int_{Z}^{} P(X,Z)dZ}

或：

在分母中计算的边缘化通常是难以处理的。例如因为搜索空间的组合很大。因此，我们寻求一个近似，利用。

由于对数证据P(X)对于是Q固定的，使最终项的L(Q)达到最大值，使P和Q的KL的散度最小。通过适当的选择Q，L(Q)变得易于计算和最大化。因此我们对后验P(Z|X)有一个解析逼近Q，对证据也有一个下界L(Q)。下界L(Q)被称为(负)*变分自由能*与热力学自由能类比，因为它也可以表示为“能量”

加上熵Q。

通过广义的毕达哥拉斯散度定理，其中kl -散度是一个特例，可以看出

D_{KL}(Q||P) \geq D_{KL}(Q||Q^) + D_{KL}(Q^||P)

这里：

具有任意约束的概率分布空间C。如果C是一个仿射空间，则勾股定理具有相等性，并且Q*是唯一的。在这种情况下，全局最小化器。

这里Z={Z1,Z2},因此

q^{\ast}(Z_2)= \frac{1 }{ \zeta(X)} \frac{P(Z_2|X) }{D_{KL}(q^{\ast}(Z_1|Z_2)||P(Z_1|Z_2,X))}

在其中，标准化常数为:

\zeta(X)= \intop_{Z_2}^{} \frac{P(Z_2|X)}{D_{KL}(q^{\ast}(Z_1|Z_2)||P(Z_1|Z_2,X))}

这个术语在实践中经常被称为证据下界(ELB*)，因为，如上所示。通过互换和作用，我们可以迭代地计算逼近和真实模型的边值。虽然这个迭代方案保证了单调地收敛，但是收敛只是局部的最小化。如果约束空间限制在独立空间内，即上述迭代方案将成为如下所示的所谓平均场近似。

【wiki, 来源：https://en.wikipedia.org/wiki/Variational_Bayesian_methods 】

Kullback-Leibler散度

在统计学中，相对熵对应的是似然比的对数期望，相对熵 D(p||q) 度量当真实分布为 P而假定分布为Q时的无效性。

定义两个概率密度函数为p(x)和q(x)之间的相对熵定义为

KL散度有如下性质：

Q分布与P分布的KL散度为：

由于对数证据logP(D)被相应的Q所固定，为了使KL散度最小，则只要极大化L(Q)。通过选择合适的Q，使L(Q)便于计算和求极值。这样就可以得到后验P(Z|D)的近似解析表达式和证据（log evidence）的下界L(Q)，又称为变分自由能（variational free energy）：

平均场理论（Mean Field Method）

数学上说，平均场的适用范围只能是完全图，或者说系统结构是well-mixed，在这种情况下，系统中的任何一个个体以等可能接触其他个体。反观物理，平均场与其说是一种方法，不如说是一种思想。其实统计物理的研究目的就是期望对宏观的热力学现象给予合理的微观理论。物理学家坚信，即便不满足完全图的假设，但既然这种“局部”到“整体”的作用得以实现，那么个体之间的局部作用相较于“全局”的作用是可以忽略不计的。

根据平均场理论，变分分布Q(Z)可以通过参数和潜在变量的划分（partition）因式分解，比如将Z划分为Z1…ZM

注意这里并非一个不可观测变量一个划分，而应该根据实际情况做决定。当然你也可以这么做，但是有时候，将几个潜变量放在一起会更容易处理。

平均场方法的合理性

在量子多体问题中，用一个（单体）有效场来代替电子所受到的其他电子的库仑相互作用。这个有效场包含所有其他电受到的其他电子的库仑相互作用。这个有效场包含了所有其他电子对该电子的相互作用。利用有效场取代电子之间的库仑相互作用之后，每一个电子在一个有效场中运动，电子与电子之间的运动是独立的(除了需要考虑泡利不相容原理)，原来的多体问题转化为单体问题。

同样在变分分布Q(Z)这个系统中，我们也可以将每一个潜变量划分看成是一个单体，其他划分对其的影响都可以用一个看做是其自身的作用。采用的办法是迭代(Iterative VB(IVB) algorithm)。这是由于当变分自由能取得最大值的时候，划分Zi与它的互斥集Z−iZ−i(或者更进一步，马尔科夫毯(Markov blanket), mb(Zi)具有一个简单的关系：

于是，对于某个划分ZiZi,我们可以先保持其他划分Z−iZ−i不变，然后用以上关系式更新ZiZi。相同步骤应用于其他划分的更新，使得每个划分之间充分相互作用，最终达到稳定值。

具体更新边缘概率（VB-marginal）步骤如下：

平均场估计下边缘概率的无意义性 (VB-marginals)

注意到Q(Z)估计的是联合概率密度，而对于每一个Qi(Zi)，其与真实的边缘概率密度Pi(Zi)的差别可能是很大的。不应该用Qi(Zi)Qi(Zi)来估计真实的边缘密度，比如在一个贝叶斯网络中，你不应该用它来推测某个节点的状态。而这其实是很糟糕的，相比于其他能够使用节点状态信息来进行局部推测的算法，变分贝叶斯方法更不利于调试。

比如一个标准的高斯联合分布P(μ,x)和最优的平均场高斯估计Q(μ,x)。Q选择了在它自己作用域中的高斯分布，因而变得很窄。此时边缘密度Qx(x)变得非常小，完全与Px(x)不同。

泛函的概念

上文已经提到我们要找到一个更加简单的函数D(Z)来近似P(Z|D)，同时问题转化为求解证据logP(Z)的下界L(Q)，或者L(Q(Z))。应该注意到L(Q)并非普通的函数，而是以整个函数为自变量的函数，这便是泛函。我们先介绍一下什么是泛函，以及泛函取得极值的必要条件。

泛函

设对于(某一函数集合内的)任意一个函数y(x)，有另一个数J[y]与之对应，则称J[y]为y(x)的泛函。泛函可以看成是函数概念的推广。这里的函数集合，即泛函的定义域，通常要求y(x) 满足一定的边界条件，并且具有连续的二阶导数．这样的y(x)称为可取函数。

泛函不同于复合函数

例如g=g(f(x)); 对于后者，给定一个x值，仍然是有一个g值与之对应；对于前者，则必须给出某一区间上的函数y(x)，才能得到一个泛函值J[y]。(定义在同一区间上的)函数不同，泛函值当然不同，为了强调泛函值J[y]与函数y(x)之间的依赖关系，常常又把函数y(x)称为变量函数。

泛函的形式多种多样，通常可以积分形式：

泛函取极值的必要条件

泛函的极值

“当变量函数为y(x)时，泛函J[y]J[y]取极大值”的含义就是：对于极值函数y(x)及其“附近”的变量函数y(x)+δy(x)y(x)+δy(x)，恒有J[y+δy]≤J[y]J[y+δy]≤J[y]

所谓函数y(x)+δy(x)y在另一个函数y(x)的“附近”，指的是：

这里的δy(x)称为函数y(x)的变分。

Euler–Lagrange方程

可以仿造函数极值必要条件的导出办法，导出泛函取极值的必要条件，这里不做严格的证明，直接给出。泛函J[y]取到极大值的必要条件是一级变分δJ[y]为0，其微分形式一般为二阶常微分方程，即Euler-Largange方程：

泛函的条件极值

在约束条件下求函数J[y]J[y]的极值，可以引入Largange乘子λλ，从而定义一个新的泛函，仍将δyδy看成是独立的，则泛函J~[y]J~[y]在边界条件下取极值的必要条件就是，

仍将δy看成是独立的，则泛函J~[y]在边界条件下取极值的必要条件就是，

发展历史

贝叶斯定理Bayes’ theorem是以Thomas Bayes(1701-1761)命名的，他研究了如何计算二项分布的概率参数的分布(在现代术语中)。在他死后，贝叶斯的未出版的手稿是由理查德·普莱斯Richard Price在英国皇家学会进行了大量的编辑工作。Richard Price主要工作有：贝叶斯的主要作品“一篇解决机会主义问题的文章”(1763)“An Essay towards solving a Problem in the Doctrine of Chances”，它发表在Philosophical Transactions中，并包含了贝叶斯定理。Price还写了一篇文章介绍了贝叶斯统计的一些哲学基础。1765年，Price被选为皇家学会会员，以表彰他对贝叶斯遗产的贡献。

最大期望值算法由Arthur P. Dempster，Nan Laird和Donald Rubin在他们1977年发表的经典论文中提出。Rolf Sundberg在他的论文和几篇论文中，对指数分布的EM方法进行了非常详细的处理。

上世纪90年代，变分推断在概率模型上得到迅速发展，在贝叶斯框架下一般的变分法由Attias的两篇文章给出。Matthew J.Beal的博士论文《Variational Algorithms for Approximate Bayesian Inference》中有比较充分地论述，作者将其应用于隐马尔科夫模型，混合因子分析，线性动力学，图模型等。变分贝叶斯是一类用于贝叶斯估计和机器学习领域中近似计算复杂（intractable）积分的技术。它主要应用于复杂的统计模型中，这种模型一般包括三类变量：观测变量(observed variables, data)，未知参数（parameters）和潜变量（latent variables）。在贝叶斯推断中，参数和潜变量统称为不可观测变量(unobserved variables)。

在NIPS2016的Tutorial里面Variational Inference (VI): Foundations and Modern Methods. 介绍到， VI的历史发展主要得益于三位学者： Peterson和 Anderson (1987), Jordan, Tommi Jaakkola, Lawrence Saul, Zoubin Gharamani (1990，1999文章) 和 Geoffrey Hinton and Van Camp (1993)。对于Peterson和 Anderson (1987)的工作在于如何理解物理上的模型的含义，并将变分推理从统计物理应用到概率推理。而对于 Jordan，Jordan实验室早期工作主要是重建了良好的VB架构。 Jordan, Tommi Jaakkola, Lawrence Saul, Zoubin Gharamani将它推广更多的概率模型。对于Hinton， Hinton的工作主要建立了良好的优化基础，是和EM算法联系起来。

主要事件

年份	事件	相关论文/Reference
1977	Dempster, A. P., Laird, N. M., & Rubin, D. B.提出EM算法	Dempster, A. P., Laird, N. M., & Rubin, D. B. (1977). Maximum likelihood from incomplete data via the EM algorithm. Journal of the royal statistical society. Series B (methodological), 1-38.
1993	Hinton, G. E., & Van Camp, D.通过减少权重长度的减小来简化网络	Hinton, G. E., & Van Camp, D. (1993, August). Keeping the neural networks simple by minimizing the description length of the weights. In Proceedings of the sixth annual conference on Computational learning theory (pp. 5-13). ACM.
1999	Jordan, M. I., Ghahramani, Z., Jaakkola, T. S., & Saul, L. K.将它推广更多的概率模型	Jordan, M. I., Ghahramani, Z., Jaakkola, T. S., & Saul, L. K. (1999). An introduction to variational methods for graphical models. Machine learning, 37(2), 183-233.
2000	Attias, H.对变分贝叶斯进行图形建模	Attias, H. (2000). A variational baysian framework for graphical models. In Advances in neural information processing systems (pp. 209-215).
2003	Beal, M. J.对变分贝叶斯进行推理	Beal, M. J. (2003). Variational algorithms for approximate Bayesian inference (p. 281). London: university of London.
2007	Nasrabadi, N. M.对模式识别的算法进行总结	Nasrabadi, N. M. (2007). Pattern recognition and machine learning. Journal of electronic imaging, 16(4), 049901.

发展分析

瓶颈

变分贝叶斯的思想是建立一种近似于未观测变量(参数和潜在变量)的后验概率。这意味着该解决方案的形式类似于其他贝叶斯推理方法，如 Gibbs sampling，即一个试图描述所有已知变量的分布。和其他贝叶斯方法一样，但不同于期望最大化(EM)或其他极大似然方法maximum likelihood，这两种类型的未观察变量(即参数和潜在变量)都以相同的形式处理。即为随机变量。对变量的估计可以用标准贝叶斯方法推导出来，例如，计算分布的均值，得到一个点估计或推导出可信区间，最高密度区域等。

“分析近似值”是指一个公式来用于后验分布。这个公式通常由一个众所周知的概率分布的乘积组成，每一个都分解为一组未观察到的变量(例如，给定观测数据，它有条件地独立于其他变量)。这个公式不是真正的后验分布，而是近似;它通常会和在未观察到的变量的最低时刻，例如平均值和方差基本相似。

变分贝叶斯的局限性

1。结果很大程度上取决于优化的起点。例子:这篇论文被大量引用，但已知存在严重问题(基于它的软件包后来被撤回，等等)。

2。计算出要优化的内容通常非常复杂。(参见任何关于变分推理的论文)

未来发展方向

将变分推断（variational inference）启发式更新神经网络的内部参数。其性能效果堪比dropout方法，并且在增强学习中有较好表现。

Contributor: Ruiying Cai

简介