最大后验概率

最大后验概率(MAP)估计来源于贝叶斯统计学,其估计值是后验概率分布(posterior distribution)的众数。最大后验概率估计可以对实验数据中无法直接观察到的量提供一个点估计(point estimate)。它与极大似然估计有密切的联系,但它通过考虑被估计量的先验概率分布(prior distribution)使用了增广的优化目标,因此,最大后验概率估计可以看作是规则化(regularization)的最大似然估计。

简介

最大后验概率(MAP)估计来源于贝叶斯统计学,其估计值是后验概率分布(posterior distribution)的众数。最大后验概率估计可以对实验数据中无法直接观察到的量提供一个点估计(point estimate)。它与极大似然估计有密切的联系,但它通过考虑被估计量的先验概率分布(prior distribution)使用了增广的优化目标,因此,最大后验概率估计可以看作是规则化(regularization)的最大似然估计。

最大后验概率估计的准确定义如下:

其中x为观测数据,theta为需要估计的总体参数,f作为x的采样分布,f(x|theta)即为总体参数为theta时x的概率。

在极大似然估计中,theta的最大似然估计就是似然函数f(x|theta)取最大值时theta的值。而在最大后验估计中,假设theta存在先验分布g,并且由于后验分布的分母与theta无关,所以最大后验估计方法通过最大化f(x|theta)g(theta)求得,即为其后验分布的众数。

值得注意的是,当theta的先验分布是均匀分布时,即先验分布为常数时,最大后验估计与最大似然估计重合,因为此时g(theta)的值与theta取值无关。

下面通过一个简单的例子来说明:

假设n个实验数据x_1,...,x_n互相独立,服从均值为mu,方差为sigma^2_v的正态分布,其中均值mu服从N(mu_0,sigma^2_m)的先验分布。我们的目标是求解mu的最大后验估计值。因此mu的最大后验估计值可以通过最大化下式得出:

解得:

注意到由于mu的MAP估计值是先验概率均值和样本均值的加权均值,不难得出当先验分布的方差越大——实际上代表我们事前对于mu的了解越少——mu的MAP估计值与mu的ML估计值越接近。

[描述来源:Murphy, Kevin P. (2012). Machine learning : a probabilistic perspective. Cambridge, MA: MIT Press.]

[描述来源:维基百科URL:https://en.wikipedia.org/wiki/Maximum_a_posteriori_estimation]

发展历史

最大后验概率估计的思想仍然来源于Bayes理论,通过在计算中纳入先验分布,MAP估计使得研究者们可以用抽象或具体的先验知识知识来帮助更准确的进行参数估计,MAP的另一优势是其实现了对不连续的实验数据进行连续估计,如在临床试验中,前期实验数据所得到的参数估计结果可以用来作为这一次实验数据的先验分布,在面对数据获取困难或成本高的问题时是一个很大的优势。

在机器学习领域,1984年D. M. Greig, B. T. Porteous 和A. H. Seheult 基于错分率(misclassification rate)探讨了MAP估计在黑白图像(binary image)中的应用。Emanuel Levitan和Gabor T. Herman于1987年就探讨了使用基于EM算法的最大后验估计的影像重建(image reconstruction),并认为通过对带惩罚项的极大似然估计(penalized maximum likelihood estimation )的惩罚项特别设计,两者可以等价,并且优于一般的似然估计。J. L. Gauvain,Chin-Hui Lee于1994年探讨了隐马尔可夫模型(Hidden Markov Model,HMM)的最大后验概率分布估计方法的框架,其中涉及到先验分布的选取、先验分布参数的设定(specification of the parameters)、对最大后验概率参数估计的评估(evaluation of the MAP estimates),促进了贝叶斯学习在语音识别(speech recognition)中的广泛应用。

MAP估计还被广泛应用于交通领域,如伯克利流量跟踪系统(Berkeley traffic tracking system )。

主要事件

年份事件相关论文/Reference
1984D. M. Greig, B. T. Porteous 和A. H. Seheult 基于错分率(misclassification rate)探讨了MAP估计在黑白图像(binary image)中的应用Greig, D., Porteous, B., & Seheult, A. (1989). Exact Maximum A Posteriori Estimation for Binary Images. Journal of the Royal Statistical Society. Series B (Methodological), 51(2), 271-279.
1987Emanuel Levitan和Gabor T. Herman于1987年就探讨了使用基于EM算法的最大后验估计的影像重建Emanuel L.; Gabor T. H. (1987). A Maximum a Posteriori Probability Expectation Maximization Algorithm for Image Reconstruction in Emission Tomography. IEEE Transactions on Medical Imaging. 2(6): 185 - 192.
1994J. L. Gauvain,Chin-Hui Lee提出了隐马尔可夫模型的最大后验概率估计方法Gauvain J.-L.; Chin-Hui L. (1994). Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains. IEEE Transactions on Speech and Audio Processing. 2(2): 291 - 298.

发展分析

瓶颈

最大后验概率估计不像极大似然估计估计具有参数化不变性( reparameterization invariance),从一种参数化切换至另一种会导致MAP估计值的变化。除此之外,参数的先验分布的选取往往过于主观,而且十分依赖研究人员对研究数据的了解。

未来发展方向

目前有许多研究集中在对MAP估计的实际应用阶段,但研究先验分布对MAP估计的影响,得出如何选择合适的先验分布或将MAP估计与其他算法结合从而得到更好的表现也不失为一个有意义的研究方向。

Contributor: Yuanyuan Li

相关人物
R. Darrell Bock
R. Darrell Bock
芝加哥大学心理学教授,研究方向主要为心理测量(psychological scaling)、多元统计方法、定性数据分析、行为遗传学和人体身高增长模型。他在项目反应理论( IRT )中引入最大边际似然和Bayes方法,以及相关的计算算法,为高级测量模型的实际应用开辟了道路。
托马斯·贝叶斯
托马斯·贝叶斯
18世纪英国数学家。1742年成为英国皇家学会会员。贝叶斯以其在概率论领域的研究闻名于世,他提出的贝叶斯定理对于现代概率论和数理统计的发展有重要的影响。他还曾在长老会担任牧师。
李锦辉
李锦辉
戈万
戈万
简介
相关人物