最大似然估计是一种统计方法,它用来求一个样本集的相关概率密度函数的参数,属于随机逼近理论的一种。随机最大似然估计与对比散度类似,目的是在符合分布$P(v)$的数据W上最小化期望损失函数$l(W)$,公式表示如下所示:

为获得最优解,需要满足下式:

随机最大似然估计作为最大似然估计的一种,主要被用于RBM模型的训练中。在训练诸如RBM等浅层网络时,一些传统的方法如对比散度在训练的时候存在缺点,很难获得基于模型分布的期望值。通过使用吉布斯采样的方法可以解决这个问题,每个梯度步骤中初始化马尔可夫链为先前梯度步骤的状态值,这种方法被称为随机最大似然。通过用一个持续的样本链来表示模型的分布,每一次迭代中只需要进行一次吉布斯采样,并作为先前梯度步骤的状态值。多次采样以后可以模拟模型的分布。[描述来源:Swersky K, Chen B, Marlin B, et al. A tutorial on stochastic approximation algorithms for training restricted Boltzmann machines and deep belief nets[C]//Information Theory and Applications Workshop (ITA), 2010. IEEE, 2010: 1-10.]
发展历史
1992年,Laurent Younes提出了一种随机最大似然估计算法,用于训练玻尔兹曼模型,这种方法使用一个持续的样本链来表示模型的分布,每一次迭代中只需要进行一次吉布斯采样。2008年,Tieleman在论文中证明用RBM进行分类时,随机最大似然估计算法的效果比对比散度要好,但是速度比对比散度慢。随后,2010年,Swersky 等人证明了在训练RBM和深度信念网时,使用随机最大似然估计法可以比对比散度的收敛速度更快。进而证明了随机最大似然估计在效果和速率上都优于对比散度。
主要事件
| 年份 | 事件 | 相关论文/Reference |
| 1992 | Laurent Younes提出了一种随机最大似然估计算法,用于训练玻尔兹曼模型,这种方法使用一个持续的样本链来表示模型的分布,每一次迭代中只需要进行一次吉布斯采样。 | Frigessi A, Hwang C R, Younes L. Optimal spectral structure of reversible stochastic matrices, Monte Carlo methods and the simulation of Markov random fields[J]. The Annals of Applied Probability, 1992, 2(3): 610-628. |
| 2008 | 用RBM进行分类时,随机最大似然估计算法的效果比对比散度要好,但是速度比对比散度慢 | T. Tieleman, “Training restricted Boltzmann machines using approximations to the likelihood gradient,” in International conference on Machine Learning, 2008, pp. 1064–1071. |
| 2010 | 在训练RBM和深度信念网时,使用随机最大似然估计法可以比对比散度的收敛速度更快 | Swersky K, Chen B, Marlin B, et al. A tutorial on stochastic approximation algorithms for training restricted Boltzmann machines and deep belief nets[C]//Information Theory and Applications Workshop (ITA), 2010. IEEE, 2010: 1-10. |
发展分析
瓶颈
当随机梯度算法移动模型的速率比马尔可夫链在迭代步中混合更快时,SML容易变得不准确。 而如何控制算法移动模型的速率高度依赖于具体问题。 现在还没有方法能够正式地测试马尔可夫链是否能够在迭代步骤之间成功混合。
未来发展方向
SML作为训练RBM等浅层模型的一种方法,应该与现阶段应用前景更好的深度模型相结合。
Contributor: Yilin Pan