被追捧和被歪曲的贝叶斯理论,究竟有什么大不了?

贝叶斯理论,被看做一种生成知识的强大方法,也能被用来促进迷信和伪科学的发展。

贝叶斯定理变得如此受欢迎,甚至在CBS热播剧《Big Bang Theory》中「客串」了一把。但就像任何工具一样,它有利也有弊。

6E027F4D-94DD-4B12-A3FCBBD3ABF2A286


我不确定我第一次听说贝叶斯定理是在何时。但我真正开始注重它仅是在这过去十年,在我的一些书呆子学生把它视为引领人生的魔法向导般去吹捧它之后。 我学生们的夸夸其谈让我困惑,维基百科等处对这个定理的解释也如此,我发现它们要么太简单要么太复杂。我便轻率地认为贝叶斯不过是一时之风尚,并不值得更深入研究。但如今贝叶斯已火热到无处不在,让人无法忽视。 

「从物理学到癌症研究,从生态学到心理学,贝叶斯统计正渗透到各个领域,」《纽约时报》如此报道。物理学家提出用贝叶斯解释量子力学以及为弦理论和多重宇宙辩护。

哲学家断言科学作为一个整体也可以被看作是一个贝叶斯过程,而贝叶斯区分科学与伪科学的方式比卡尔·波普尔所普及的证伪法更加精确。

 人工智能学者,包括谷歌自动驾驶汽车的设计者利用贝叶斯软件帮助机器识别模式和做出决策。Sharon Bertsch McGrayne写了一本讲贝叶斯历史的畅销书,他说贝叶斯程序可以「从邮件中筛别垃圾邮件,评估医疗和国家安全风险,解码DNA,以及其他事情。」

在网站Edge上,物理学家John Mather 则发愁贝叶斯机器也许会过于智能以至于将人类淘汰。 认知科学家推测我们的大脑在感知、思考和决策时使用了贝叶斯算法。

2015年11月,科学家和哲学家在纽约大学举办的主题会议「大脑是贝叶斯式的吗?」中探索了这个可能性。 狂热者坚称如果更多人采用有意识的贝叶斯推理(与大脑可能采用的无意识贝叶斯处理过程相反),世界将会变得更美好。

在《贝叶斯定理的直观解释(An Intuitive Explanation of Bayes’ Theorem)》中,AI理论家Eliezer Yudkowsky承认了贝叶斯追随者的崇拜式热情: 「为什么一个数学概念会让它的学生产生这种奇怪的热情?

贝叶斯革命正席卷科学界,并声称能将实验法作为一个特例涵盖进去。这种贝叶斯革命到底是什么?贝叶斯追随者知道什么秘密?他们看见了什么曙光?很快你就会知道。

很快你就会加入我们的行列。」Yudkowsky 打趣到。他真的只是开玩笑吗? 考虑到所有这些嬉闹,我尝试去彻底弄清贝叶斯的真相。

在网上数不尽的解释中,我发现有一些非常有帮助,包括Yudkowsky的文章、维基百科的参考条目、哲学家Curtis Brown、计算机科学家Oscar Bonilla和Kalid Azad的短篇文章。在这篇文章中,我尝试去解释——主要是为了我自己的利益——关于贝叶斯的一切。

我相信友善的读者通常会指出我的错误。 贝叶斯理论以它的发明者——18世纪长老会的牧师Thomas Bayes命名,它是一种基于能获得的最好证据(观察、数据和信息)来计算信念度(或假说、主张、命题)有效性的方法。(「信念度」即Belief,意为对事物的真实性和正确性所具有的信心。)

 以下是最直白的描述:原始信念度加上新证据等于新的改进的信念度。以下是一个更全面的版本:在新证据基础上,信念为真的概率等于不考虑证据的情况下信念为真的概率乘以信念为真的条件下证据为真的概率再除以不考虑信念是否为真的情况下证据为真的概率。明白了吗?

 基本的数学公式是这种形式: P(B|E) = P(B) × P(E|B) / P(E),P代表概率,B代表信念,E代表证据。P(B)代表B发生的概率, P(E)代表E发生的概率。P(B|E)即在E发生的条件下B发生的概率, P(E|B)即在B发生的条件下E发生的概率。

 医疗化验测试经常被用来论证这个公式。假设我们已经有先验知识:在你的这个年龄段,患癌症的概率为1%。如果这个测试的可信度为100%,你不需要贝叶斯定理就会知道阳性测试结果意味着什么。但我们还是来用一下贝叶斯定理,只是来看看它的原理是怎样的。

 要解出 P(B|E),你把数据代入贝叶斯公式的右侧。P(B)是被测试前你患癌症的概率,是1%,即0.01.那P(E)即为你将被检测为阳性的概率。因为它们各自为分子分母,它们相互抵消,剩下就是P(B|E) = P(E|B) = 1。

如果你检测呈阳性,那你必定患有癌症,反之亦然。 在现实世界中,真正完全可信的测试几乎是少之又少。所以如果说你的测试是99%可靠。也就是说,100个癌症患者中的99个测试结果会呈阳性,而100个健康人中有99个人的测试结果为阴性。

这依然是一个绝妙的测试。如果你的测试是阳性的,那么你得癌症的可能性是多少呢? 现在该轮到贝叶斯理论展示它的用途了。大多数人认为答案是99%或是一个接近它的数字。这正是测试的可靠度,不是吗?

但是,贝叶斯理论的正确答案是,只有50%。 将数据代入贝叶斯公式的右边,我们来看看为什么是这个结果。P(B)依然是0.01。P(E|B)—如果你有癌症,测试为阳性的概率现在是0.99。所以P(B)乘以P(E|B)等于0.01乘上0.99,也就是0.0099。这就是你的阳性结果为真(也就是意味着你患有癌症)的概率。 

分母P(E)呢?这是整个计算变得微妙的一步。P(E)是无论你是否患有癌症测试结果为阳性的概率。换句话说,它既包括错误的阳性结果同时也包括正确的阳性结果。 为了计算错误的阳性结果的概率,你需要将假阳性的比例(即0.01),乘上没有患癌人群的百分比(即0.99)。结果为0.0099。是的,太妙了,准确定为99%的测试结果中,假阳性和真阳性的比例相同。 

让我们继续完成这个运算。为了得到P(E),将假阳性和假阴性结果相加得到0.0198,然后用0.0099来除以它得到0.5。所以再一次,如果测试结果为阳性,那么你患癌症的概率P(B|E)是50%。 如果你再做一次测试,这能大大减少你的结果的不确定性,因为你患有癌症的概率P(B)不再是1%,而是50%了。

如果你的第二次测试结果仍然为阳性,贝叶斯理论告诉你,你患有癌症的概率现在是99%了。如这个例子里所看到的,重复贝叶斯理论能生成极其精准的信息。 但是如果你的测试可靠性为90%(这仍然是一个不错的值),即使你测试两次为阳性,你实际患有癌症的机会仍然低于50%。 

大多数人,包括物理学家,很难理解为什么这些概率能解释我们对癌症等疾病的过分诊断和过分治疗。这个例子告诉我们贝叶斯方法是正确的:如果更多的人——或是至少更多的关注健康的消费者和服务者采用贝叶斯理论,这个世界将会更好。 

另一方面,贝叶斯理论只是常识的整理。正如Yudkowsky在他的教义末尾写到:「从这点来看,贝叶斯理论也许看起来完全是显而易见或者说甚至是同义重复,而不是令人兴奋和新鲜的。如果是这样,这篇导论已经完全实现了它的目的。

考虑癌症测试的这个例子:贝叶斯理论说如果你的测试结果为阳性,你患癌症的概率等于真阳性的概率除以所有阳性的概率(无论真假)。

简而言之,一定要注意假阳性的概率。 这是我对这个原理更一般的解释:你的信念的可信度取决于你的信念(并且只是你的信念)解释证据的程度。

对于该条证据备选的解释越多,你的信念的可信度就越低。这就是我所认为的贝叶斯理论的本质。 「备选解释」可能包括很多东西。你的证据也许会是错误的,会被失灵的仪器、错误的分析、确认偏误甚至是欺诈给歪曲。

或许,尽管你的证据合理,但却可以被很多不属于你的信念或假说所解释。 换句话说,贝叶斯理论没什么神奇的。

归根结底,它就是在说,你的信念只和它的证据一样有效。如果你有好的证据,贝叶斯理论就能得到好结果。如果你的证据不足为信,贝叶斯理论也就没什么用。

进入的是垃圾,出来的也是垃圾。 贝叶斯滥用的潜质始于P(B),也就是你对信念的概率做出的原始估值,经常被称为「先验概率」(prior)

在上面提到的癌症测试例子中,对于癌症的发病率,我们有一个很好很精确的先验概率为1%。在现实世界中,专家们在如何诊断和计算癌症上没有达成共识。

你的先验概率通常会包含一个概率的范围,而不是一个单一的数值。 在许多案例中,估测先验概率只能凭猜测,这让计算中充满了主观因素。你也许会猜,某些事情发生的概率——与癌症不同——根本不存在,例如弦理论、多重宇宙、暴胀甚至上帝。你也许还会引用一些不令人信服的证据去支持你那将信将疑的信念。

从这个角度来看,贝叶斯理论既能够促进理性,也能促进迷信与伪科学的发展。 贝叶斯理论中嵌入了一种伦理信息:如果你并不偏执于寻找证据的其他解释,那这种证据只能让你更加坚持你已经相信的东西。科学家常常难免犯这种错误,这也说明了为什么许多科学论断到最后被证明是错误的。贝叶斯主义者宣称他们的方法能够帮助科学家克服偏见,并得到更加可信的结果,但我对这一点保持怀疑。

就像我上面所提到的,弦理论和多重宇宙的支持者正在愈发拥护贝叶斯分析。这是为什么呢?因为支持者已经疲倦了听「弦理论和多重宇宙理论是错误并且不科学」的论调,贝叶斯的理论让他们能够以更加受支持的角度去提出他们的理论。

在这种情况下,贝叶斯理论不仅没有帮助抵消确认偏误,反而加剧了它。 如科学作家Faye Flam最近在《纽约时报》上所说的,贝叶斯统计「无法让我们从伪科学中脱离出来」。贝叶斯的理论是一种万金油,可以服务任何理论。

杰出的贝叶斯统计学家、哈佛大学的Donald Rubin为烟草公司提供咨询,最近正面临吸烟危害的诉讼。 但是,我却觉得贝叶斯理论很让人着迷。它让我想起了另一种理论——进化论。你看待它的角度不同,它有时候看似出奇的简单,有时却又深不可测,有时会带来肤浅的错误,而有时又会启发深远的洞察。 

也许这是因为我的大脑是贝叶斯式的,但我已经开始意识到了贝叶斯的无处不在。最近,我在Kindle上阅读爱伦坡的全集时,我在《阿瑟·戈登·皮姆的故事》中看到了这样一句话:「在没有一点点偏见的情况下(无论正面还是反面),我们才能从最简单的数据中准确地推演出整个事情的全貌。」 在跳上贝叶斯这辆车之前,你最好时刻谨记爱伦坡的警告。

后记:Andrew Gelman,哥伦比亚大学的贝叶斯统计学家,他给了我下面这个诚恳的建议: 「我从事社会与环境科学政策方面的研究,而不是理论物理,因此我真的没法用贝叶斯来评判弦理论和多重宇宙啊!实际上我并不喜欢这个「结果就是假说为真的概率」的框架。在某些「假说」与概率都定义良好的简单情况下,它运转良好,例如拼写检查(见这篇文章:http://andrewgelman.com/2014/01/22/spell-checking-example/),但是我不认为思考科学假说的概率为真为假有何意义,可以见这篇文章http://andrewgelman.com/2014/01/22/spell-checking-example/。」 

总而言之,我认为贝叶斯是在模型中进行推理的好方法,但是并不是评估模型或假说是否成立的好方法(我的确认为『模型与假说的概率为真』是一种没有意义的陈述,除却在某些范围狭窄但重要的例子中)。

我还注意到你文中的这一段:『在许多案例中,估测先验概率只能凭猜测,这让计算中充满了主观因素。你也许会猜,某些事情发生的概率——与癌症不同——根本不存在,例如弦理论、多重宇宙、暴胀甚至上帝。

你也许还会引用一些不令人信服的证据去支持你那将信将疑的信念。从这个角度来看,贝叶斯理论既能够促进理性,也能促进迷信与伪科学的发展。』我认为这一段话有点误导,因为你说一个模型的所有部分都是猜测而得的。或者,换句话说,一个统计模型的全部都需要去被理解与评估。我反对当先验分布有问题而数据模型却被假定为正确的态度。这是我关于这个主题所写的一些内容:http://andrewgelman.com/2015/01/27/perhaps-merely-accident-history-skeptics-subjectivists-alike-strain-gnat-prior-distribution-swallowing-camel-likelihood/ 」

入门
PSI内容合伙人
PSI内容合伙人

机器之心编辑

返回顶部