条件概率分布

条件概率分布(Conditional Probability Distribution,或者条件分布,Conditional Distribution )是现代概率论中的概念。 已知两个相关的随机变量X 和Y,随机变量Y 在条件{X =x}下的条件概率分布是指当已知X 的取值为某个特定值x之时,Y 的概率分布。

来源:维基百科
简介

条件概率是指事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为:P(A|B),读作“在B条件下A的概率”。条件概率可以用决策树进行计算。条件概率的谬论是假设 P(A|B) 大致等于 P(B|A)。数学家John Allen Paulos 在他的《数学盲》一书中指出医生、律师以及其他受过很好教育的非统计学家经常会犯这样的错误。这种错误可以通过用实数而不是概率来描述数据的方法来避免。

定义

AB 为样本空间 Ω 中的两个事件,其中 P(B)>0。那么在事件 B 发生的条件下,事件 A 发生的条件概率为:

条件概率有时候也称为:后验概率。

联合概率表示两个事件共同发生的概率。AB的联合概率表示为 P(AB) 或者P(A,B),或者P(A∩B)。

边缘概率(Marginal Probability)是某个事件发生的概率。边缘概率是这样得到的:在联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率)。这称为边缘化marginalization)。A的边缘概率表示为PA),B的边缘概率表示为PB)。

需要注意的是,在这些定义中AB之间不一定有因果或者时间顺序关系。A可能会先于B发生,也可能相反,也可能二者同时发生。A可能会导致B的发生,也可能相反,也可能二者之间根本就没有因果关系。

例如考虑一些可能是新的信息的概率条件性可以通过贝叶斯定理实现。

【出处:wiki,URL:https://zh.wikipedia.org/wiki/%E6%9D%A1%E4%BB%B6%E6%A6%82%E7%8E%87

统计独立性

当且仅当两个随机事件AB满足P(A∩B)=P(A)P(B)的时候,它们才是统计独立的,这样联合概率可以表示为各自概率的简单乘积。

同样,对于两个独立事件AB有P(A|B)=P(A)以及P(B|A)=P(B)换句话说,如果AB是相互独立的,那么AB这个前提下的条件概率就是A自身的概率;同样,BA的前提下的条件概率就是B自身的概率.

互斥性

当且仅当AB满足

的时候,AB是互斥的。因此,

换句话说,如果B已经发生,由于A不能和B在同一场合下发生,那么A发生的概率为零;同样,如果A已经发生,那么B发生的概率为零。

举例:

下面是一个虚构但写实的例子,P(A|B) 与 P(B|A)的差距可能令人惊讶,同时也相当明显。

若想分辨某些个体是否有重大疾病,以便早期治疗,我们可能会对一大群人进行检验。虽然其益处明显可见,但同时,检验行为有一个地方引起争议,就是有检出假阳性的结果的可能:若有个未得疾病的人,却在初检时被误检为得病,他可能会感到苦恼烦闷,一直持续到更详细的检测显示他并未得病为止。而且就算在告知他其实是健康的人后,也可能因此对他的人生有负面影响。

这个问题的重要性,最适合用条件机率的观点来解释。

假设人群中有1%的人罹患此疾病,而其他人是健康的。我们随机选出任一个体,并将患病以disease、健康以well表示:

P(disease) = 1% = 0.01 and P(well) = 99% = 0.99. 假设检验动作实施在未患病的人身上时,有1%的机率其结果为假阳性(阳性以positive表示)。意即:P(positive | well) = 1%,而且P(negative | well) = 99%.

最后,假设检验动作实施在患病的人身上时,有1%的机率其结果为假阴性(阴性以negative表示)。意即:P(negative | disease) = 1%且P(positive | disease) = 99%。

现在,由计算可知:

是整群人中健康、且测定为阴性者的比率。

是整群人中得病、且测定为阳性者的比率。

是整群人中被测定为假阳性者的比率。

是整群人中被测定为假阴性者的比率。进一步得出:

是整群人中被测出为阳性者的比率

是某人被测出为阳性时,实际上真的得了病的概率。这个例子里面,我们很轻易可以看出P(positive|disease)=99%与P(disease|positive)=50%的差距:前者是你得了病,而被检出为阳性的条件概率;后者是你被检出为阳性,而你实际上真得了病的条件概率。由我们在本例中所选的数字,最终结果可能令人难以接受:被测定为阳性者,其中的半数实际上是假阳性。

发展历史

在古代,Plato(BC428-348年)和他的学生亚里士多德(公元前384-322)在哲学上使用了chance一词。公元前324年,希腊人,Antimenes(530-510 BC)首先开发了一个系统,可以告知投资的金钱在一定场景下的输赢。考虑到日常生活中的许多不确定因素,如健康、天气、出生、死亡和游戏,导致随机或随机变量的概念作为一个实验的输出(例如,一个物体的长度、人的高度、某一天的城市温度)。数学或科学中几乎所有的测量都具有基本性质,其结果在不同的试验中都有所不同。换句话说,结果通常是随机的。因此,我们要测量的量称为随机变量。

从历史上看,概率probo这个词是拉丁词‘probo’和英语单词probe 和probable相关。在其他语言中,在数学意义上这个词的含义或多或少类似于合理性。在古代,赌博的问题产生了概率的概念:输赢。它开始于著名物理学家,数学家和赌徒,吉罗拉莫·卡尔达诺, Gerolamo Cardano(1501-1576),他是意大利波罗尼亚大学的数学教授。十五世纪,在意大利开始了以骰子为契机的机会博弈。在这段时间里,对机会游戏的引用比较多,但没有提出如何计算事件概率的建议。Cardano写了一个简短的手册《Liber de Ludo Aleae (Games of Chance)》,这是第一个以数学的方式进行计算数学期望的问题。然而,他的研究却很少引起人们的注意,也没有推动任何概率论的真正发展。

一个世纪之后,Cardano的手册在1633出版。在这个出版的手册,Cardano认为概率P会在0和1之间,事件的结果是随机的,然后将这一想法运用到了游戏。他还发展了大数定律,指出当一个事件的概率为p时,在大量的试验N之后,它将发生的次数接近于np。

在第十六和第十七世纪,人们非常关注机会游戏,例如掷硬币、掷骰子或玩扑克牌,特别是赌博问题。一个意大利贵族将一个扔骰子的问题给Galileo Galilei(1564-1642)解决,Galileo Galilei是一个伟大的意大利天文学家和物理学家,他提出一个解决方案,也就是第一个在数学概率论的记录的历史。伽利略去世后的一年,一个法国贵族和赌博专家,Chevalier de Mé重新(1610-1685)向Baise Pascal(1623-1662)提出机率数学问题游戏,Baise Pascal是法国数学家,他把这些问题交给另一位法国数学家Pierre de Fermat(1601-1665)。从1654开始,Pascal和Fermat开始解决关于机率的游戏、物体排列和赢得一个游戏机率的问题。他们的著名成就就是引入了概率、平均(或期望)值和条件概率的概念,因而可以看作是古典概率论诞生的标志。

【出处:A short history of probability theory and its applications

贝叶斯统计的历史可以上溯到 16 世纪。1713 年,James Bernoulli 意识到在可用于机会游戏的演绎逻辑和每日生活中的归纳逻辑之间的区别,他提出一个著名的问题:前者的机理如何能帮助处理后面的推断。托马斯.贝叶斯(Thomas Bayes, 1702-1761)是长老会的牧师。他对这个问题产生浓厚的兴趣,并且对这个问题进行认真的研究,期间,他写了一篇文章来回答Bernoulli 的问题,提出了后来以他的名字命名的公式:贝叶斯公式。但是,直到贝叶斯死后才由他的朋友Richard Price 在 1763 年发表了这篇文章,对Bernoulli 的问题提供了回答。这篇文章标志着贝叶斯统计的产生。但贝叶斯统计的思想在开始时并没有得到重视。后来,Laplace 本人重新发现了贝叶斯公式,而且阐述得比贝叶斯更为清晰。由于贝叶斯统计对于概率的观点过于主观,与当时的主流统计观点相左,此外也很难应用当时严谨的数学理论解释。

例如贝叶斯统计中的先验概率的观点,一直以来都是贝叶斯统计学派和非贝叶斯统计学派争论的焦点之一。在历史上,贝叶斯统计长期受到排斥,受到当时主流的数学家们的拒绝。例如,近代优秀的统计学家R. A. Fisher 就是贝叶斯统计的反对者。然而,随着科学的进步,贝叶斯统计在实际应用上取得的成功慢慢改变了人们的观点。贝叶斯统计慢慢的受到人们的重视,贝叶斯统计已经成为统计学中一门很热门的研究课题。

从贝叶斯为了回答James Bernoulli 的问题而写的那一篇论文,提出著名的贝叶斯统计思想以来,经过几百年的发展,关于贝叶斯统计的论文和学术专著有很多。统计界公认比较权威的贝叶斯统计的著作是James O. Berger 的作品:Statistical Decision theory and Bayesian Analysis。国内有其中译本:《统计决策论及贝叶斯分析》,它是由贾乃光主译,吴喜之校译,中国统计出版社出版。

朴素贝叶斯分类器是一种基于贝叶斯定理的简单概率分类器家族的一员,其特点是具有强(朴素)的独立假设。自20世纪50年代以来,朴素贝叶斯被广泛研究。在1960年代早期,它用来在文本中检索出不同的姓名,为文本分类提供一个基础的(基线)方法。判断文档是否属于一个类别或其他(如是否是垃圾邮件,类别是运动还是政治,等等),用词的频率特性,来进行适当的预处理。当然它在这个领域具有更先进的方法,包括支持向量机。当然,朴素贝叶斯在自动医疗诊断中也有应用。其他的应用还有Duda and Hart, 1973; Lachenbruch, 1975; Aitchison and Dunsmore, 1975,

尽管朴素贝叶斯分类器的设计很简单,但在许多复杂的现实世界中,它们的作用还是很不错的。在2004年,Zhang, Harry.对贝叶斯分类问题的分析表明,朴素贝叶斯分类器明显难以置信的有效性存在着合理的理论原因。尽管如此,2006年,Caruana, R.; Niculescu-Mizil, A.将朴素贝叶斯与其他分类算法的综合比较表明,贝叶斯分类的表现优于其他方法,如boosted trees或随机森林。之后,在2008年,Igor Kononenko提出了半监督式的朴素贝叶斯。

主要事件

年份事件相关论文/Reference
1996Jensen, F. V.对贝叶斯理论进行介绍Jensen, F. V. (1996). An introduction to Bayesian networks (Vol. 210, pp. 1-178). London: UCL press.
2001Huelsenbeck, J. P., & Ronquist, F.对系统树进行贝叶斯推理Huelsenbeck, J. P., & Ronquist, F. (2001). MRBAYES: Bayesian inference of phylogenetic trees. Bioinformatics, 17(8), 754-755.
2001Bernardo, J. M., & Smith, A. F.写书籍介绍贝叶斯理论Bernardo, J. M., & Smith, A. F. (2001). Bayesian theory.
2004Zhang对朴素贝叶斯的最优性进行分析Zhang, H. (2004). The optimality of naive Bayes. AA, 1(2), 3.
2006Caruana, R., & Niculescu-Mizil, A. 对当时的监督式学习算法进行比较Caruana, R., & Niculescu-Mizil, A. (2006, June). An empirical comparison of supervised learning algorithms. In Proceedings of the 23rd international conference on Machine learning (pp. 161-168). ACM.
2007Wang, Q., Garrity, G. M., Tiedje, J. M.使用朴素贝叶斯对RNA的排序进行分析,是朴素贝叶斯成功运用的典型案例Wang, Q., Garrity, G. M., Tiedje, J. M., & Cole, J. R. (2007). Naive Bayesian classifier for rapid assignment of rRNA sequences into the new bacterial taxonomy. Applied and environmental microbiology, 73(16), 5261-5267.
2014Gelman, A., Carlin, J. B., Stern, H. S.,出版书籍贝叶斯数据分析Gelman, A., Carlin, J. B., Stern, H. S., Dunson, D. B., Vehtari, A., & Rubin, D. B. (2014). Bayesian data analysis (Vol. 2). Boca Raton, FL: CRC press.

发展分析

瓶颈

在先验概率能保证问题有解的情况下,最大似然估计和贝叶斯估计在训练样本趋近于无穷时得到的结果是一样的.但是实际的模式识别问题中,训练样本总是有限的,应如何选择使用哪种模型呢?下面是简单的分析:

(1) 计算复杂度:就实现的复杂度来说,肯定是有限选择最大似然估计,最大似然估计中只需要使用到简单的微分运算即可,而在贝叶斯估计中则需要用到非常复杂的多重积分,不仅如此,贝叶斯估计相对来说也更难理解;

(2)准确性:当采用的样本数据很有限时,贝叶斯估计误差更小,毕竟在理论上,贝叶斯估计有很强的理论和算法基础。

参数化估计的缺点:

贝叶斯估计和最大似然估计都是属于参数化估计,那么二者存在着一个共同的缺点:参数化估计虽然使得类条件概率密度变得相对简单,但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中,与做出能较好的接近潜在真实分布中的假设,往往需要一定程度上利用关于应用任务本身的经验知识,否则若仅凭“猜测”来假设概率分布形式,很可能产生误导性的结果!

未来发展方向

下面展示了许多贝叶斯深度学习以后可能会应用的领域:

  • 通过将深度学习概率性地看作有 GLM 叠加的模型,我们打开了许多统计模型的思路,包括指数簇模型(exponential family model)和异方差误差(heteroscedastic errors)等。
  • 贝叶斯层级模型和深度学习有很多相似的优势。贝叶斯层级模型包括额外的随机层,因此也提供额外的可解释性和灵活性。
  • 另一个途径是组合近端算法(combining proximal algorithms)和 MCMC。
  • 通过链式法则(即反向传播算法)可以很容易获得梯度信息,如今有很好的随机方法拟合现存的神经网络,如 MCMC、HMC、近端方法和 ADMM,它们都能大大减少深度学习的训练时间。
  • 超参数调节
  • 相比于传统贝叶斯非参数方法,在贝叶斯非参数方法中使用超平面应该产生良好的预测器。
  • 深度学习在计算机软件有很好的应用,其可以用于贝叶斯计算(纯 MCMC 模型计算太慢)。
  • 用于调整超参数和最优化有更好的贝叶斯算法。Langevin diffusion MCMC 、proximal MCMC 和哈密顿蒙特卡罗方法(HMC)可像 Hessian 信息那样用导数表示。

【来源:机器之心,URL:https://zhuanlan.zhihu.com/p/27303175

Contributor:Ruiying Cai

相关人物
托马斯·贝叶斯
托马斯·贝叶斯
18世纪英国数学家。1742年成为英国皇家学会会员。贝叶斯以其在概率论领域的研究闻名于世,他提出的贝叶斯定理对于现代概率论和数理统计的发展有重要的影响。他还曾在长老会担任牧师。
简介
相关人物