最大似然估计

极大似然估计是统计学中用来估计概率模型参数的一种方法

简介

极大似然估计是统计学中用来估计概率模型的一种方法。它假设观测数据服从某种概率分布,但其具体的参数未知,则任一一个观测值为x的概率为:

其中theta为未知参数,若数据服从离散分布,函数f就为在参数为时观测到这一采样的概率,若其是连续分布,则函数f为联合分布的概率密度函数在观测值处的取值。

基于这个逻辑,一个大小为n的样本中,第一个观测值为x1.第二个观测值为x2……第p个观测值为xp,的概率为:

极大似然估计法就是选择能够使得上式所表达的样本取值为观测值的概率最大的参数估计,目前我们所用的极大似然方程大多忽略上式中的常数项并对极大似然方程取对数,写为:

下面对观测数据服从连续分布和离散分布分别举例说明。

假设一个实验随机抛出硬币,共得到49次正面朝上的结果和31次反面朝上的结果,则极大似然方差可以写为:

其中p为硬币正面朝上的概率,取值[0,1],则极大似然估计需要在任意可能的p取值中求得能够使观测数据出现概率最大的p值,在本例中即对p求导数使其导数等于0。三个可能的解为p=0,p=1和p=49/80,显然应该选择最后一个解,因为前两个会使似然方程的值为0.

当观测数据是连续的并服从正态分布时,其任一一个观测值的概率密度函数为:

因此对数似然方程可以写为:

对其均值mu和方差sigma分别求偏导数并使其等于0可以解得极大似然估计值为:

注意极大似然估计(maximum likelihood estimation)是一种参数估计方法,而极大似然估计值(maximum likelihood estimator)对某一个问题的似然方程最大化求得的解,即参数估计值。

极大似然估计值有几个非常好的性质:一致性(consistency)、渐进正态性(asymptotic normality)、泛函不变性(parametrization invariance)。

[描述来源:R. A. Fisher. (1922). On the Mathematical Foundations of Theoretical Statistics URL:http://l.academicdirect.org/Horticulture/GAs/Refs/Fisher_1922_Estimation.pdf ]

[描述来源:维基百科 URL:https://en.wikipedia.org/wiki/Maximum_likelihood_estimation ]

发展历史

极大似然估计最早是由高斯于1821年在众多数学家的工作基础上提出的,但是由费雪在1912年至1922年期间分析并推广的,极大似然估计这一名称也来自费雪。威尔克斯于1938年提出了wilks‘ theorem,证明了对数极大似然估计方程的误差项服从卡方分布,从而为极大似然参数估计值的置信区间估计提供了理论基础。费雪在其之后的研究陆陆续续证明了上文提到的极大似然估计得一些性质。

同样由费雪提出的贝叶斯估计与极大似然估计有着天然的联系,后者可以看作是前者的先验概率(prior distribution)取均匀分布(uniform distribution)的特殊形式。随着对极大似然估计的研究不断深入,一些新的算法对极大似然估计进行了拓展。EM算法由Dempster,Laird和Rubin在1977年的一篇论文中解释并命名,但这个算法的思想早已存在,其适用于数据缺失、或为简化混合正态分布极大似然估计而引入“潜在数据”时的情况,由于E步骤(求期望)和M步骤(应用极大似然估计算法)的计算都相对简单,EM算法计算复杂度更低。EM算法可以看作是由Hunter 和 Lange于2000年整理提出的“MM”算法框架的一种特殊情况,在这里不展开说明。而准极大似然估计(quasi-maximum likelihood estimate,也叫pseudo-likelihood estimate, composite likelihood estimate)则保证了当似然方程没有被准确描述时,参数估计值仍然是一致和渐进正态的,当然其精度会下降。但由于算法的这个特性,复杂的似然方程可以用简化的方程替代从而降低计算复杂度。

由于上文提到的算法大部分都涉及到由不同学者研究得出的理论,因此这些算法准确的提出时间已不可考证,极大似然估计及与其相关的参数估计算法是统计学、机器学习领域最重要、最基础的算法之一,目前在各个领域都有广泛的应用。

主要事件

年份事件相关论文/Reference
1922费雪正式提出极大似然估计这一名字Fisher R. A. (1922). On the Mathematical Foundations of Theoretical Statistics. Philosophical Transactions of the Royal Society of London. Series A, Containing Papers of a Mathematical or Physical Character.
1938威尔克斯提出“wilks' theorem”证明对数极大似然估计方程误差项服从卡方分布。Hald A. (1999). On the history of maximum likelihood in relation to inverse probability and least squares. Statistical Science. 14 (2): 214–222.
1977Dempster,Laird和Rubin在论文中解释并命名了EM算法Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). Maximum Likelihood from Incomplete Data via the EM Algorithm. Journal of the Royal Statistical Society, Series B.

发展分析

瓶颈

极大似然估计假设连续数据服从正态分布,虽然由于中心极限定理在样本量足够大的时候这一假设都能够满足,但当样本量过小且数据不服从正态分布时,估计误差会比较大。另一个缺点就是当样本服从的概率分布过于复杂时算法的计算也非常复杂而且耗时,上文提到的EM算法和准极大似然估计都是基于简化计算的思想而发明的。

未来发展方向

狭义的极大似然估计的发展经过100多年,已经非常成熟,目前的研究大多集中在提升算法运行速度的方向。

Contributor: Yuanyuan Li

相关人物
费雪
费雪
Samuel Stanley Wilks
Samuel Stanley Wilks
唐纳德·鲁宾
唐纳德·鲁宾
1970年毕业于哈佛大学并获得博士学位,先后任教和就职于美国芝加哥大学、哈佛大学和美国国家经济研究局,曾担任美国哈佛大学统计学系主任。他是美国国家科学院院士、美国人文与科学院院士,获得过统计学领域几乎所有著名奖项,被誉为当今世界最具影响力的统计学泰斗。鲁宾教授对科学的贡献已超出统计学范畴,其统计思想对生物医学、经济学、心理学、教育学、社会学及计算机科学等众多领域产生了重大影响。2018年9月入职清华大学,全时加盟丘成桐数学科学中心。
简介
相关人物