杨依帆,常政整理 社区编辑

图灵奖得主Judea Pearl :从“贝叶斯网络之父”到“AI社区的叛徒”

图灵奖得主Judea  Pearl,早在40多年前便通过贝叶斯网的设计,使机器实现概率推理而在人工智能领域声名大噪,并被誉为“贝叶斯网络之父”,但近年却公开声称自己其实是人工智能社区的一名“叛徒”:离开了主流追逐、并且也是由他奠定重要理论基础和方法论的概率推理,而去追求一项更具挑战性的任务——因果推理。Judea Pearl 认为当今深度学习所有令人印象深刻的成就,都只不过是为了适应“曲线拟合(Curve fitting)”而今,这也导致深度学习的研究员们困在了“关联级别”的问题窘境里。Judea  Pearl 期望能掀起一场“因果革命”,采用因果推理模型,从因果而非单纯的数据关联角度去研究人工智能

携多年磨一剑的“因果推理”理论,Judea Pearl将出席第二届北京智源大会(官网:https://2020.baai.ac.cn并做Keynote演讲,为我们徐徐呈现他眼中多彩而神奇的人工智能“画卷”。为了更好地消化他的演讲观点,我们不妨通过本文来预热了解一下Judea Pearl 关于因果推断的主要思想。

Judea Pearl 

朱迪亚·珀尔(Judea Pearl)——以色列裔美籍计算机科学家、哲学家,以倡导人工智能的概率方法和贝叶斯网络而闻名。他还因在结构模型的基础上发展出因果和反事实推论而受到广泛称赞。2011年,ACM授予Judea Pearl图灵奖,以表彰他“通过发展概率和因果推理演算对人工智能做出的基础性贡献”。

图2:Judea Pearl(图片出自网络)Judea Pearl 在2018年出版了一本新著《为什么:关于因果关系的新科学》系统总结了自己近25年关于“因果推断”探索的思想结晶、研究成果。下面我们对该书中文版[1]的部分文字和图片进行引用和整理,以帮助大家快速了解他的基本思想。

1. 因果关系的三个层级

Judea Pearl  的这部著作,核心围绕“因果关系之梯”的三个层级来描述,他说:“我在机器学习方面的研究经历告诉我,因果关系的学习者必须熟练掌握至少三种不同层级的认知能力:观察能力(Seeing)、行动能力(Doing)和想象能力(Imagining)。”

图3:因果关系的三个层级——关联、干预、反事实

第一层级(关联):观察能力,指发现环境中规律的能力。

第二层级(干预):行动能力,指预测对环境刻意改变后的结果,并根据预测结果选择行为方案。

第三层级(反事实):想象能力,指想象并不存在的世界,并推测观察到的现象原因为何。

第一层级“关联”和第二层级“干预”主要针对当前的弱人工智能,包括对现有贝叶斯网络深度学习领域的拓展、前门标准实践、do演算等核心算法;而第三层级“反事实”,Judea Pearl 认为反事实能力基于基于人的想象力和假设,是人类独有的思考能力,也是令人工智能达到人类智能的关键命门。

2. 反事实的算法化:

将意识和智能体转化为计算现实

现在基于统计的机器学习方法,其理论缺陷便在于此:由于缺乏反事实这一层级的信息,使得无论总结经验还是预测未来,都缺乏理据。比如一个基于统计的事实“感冒了,吃了感冒药,感冒好了”,实际上这并不能证明感冒药的效果,如果要证明其中的因果性,需要研究相应的反事实:“如果当初没有吃感冒药,现在感冒好不好?”

Judea Pearl 说:“ 如果在我睡觉的时候,我的家庭机器人打开了吸尘器,我会告诉它:‘你不该吵醒我。’我们对真正的智能机器人的期望是,它们应该明白你我都能完全理解的事:吸尘器会制造噪音,噪音会吵醒睡觉的人,而这会让被吵醒的人不高兴。”

图4:一个聪明的机器人会考虑它行为的因果影响所以强人工智能应该是能反思其行为,并能从过去的错误中吸取教训的机器。它应该能够理解“我本应该采取不同的行为”这句话。这个说法的反事实解释是:“我做了 X = x,得到的结果是 Y = y。然而,假如我之前采取了不同的行动,比如说 X = x',那么结果本应该会更好,也许是 Y = y'。

3. 新冠肺炎的反事实研究

针对当前的新冠疫情,Judea Pearl 于2020年4月2日在其博客上发布了一项相关研究[2],目标是“如何将有限的医疗资源提供给最需要的病人”。通过这个研究案例,我们也可以一窥“反事实”的推理过程:

一男一女两名患者来到你的急诊室,他们的COVID-19检测都呈阳性。哪个病人最需要治疗?我们要看一下相关的数据。

图5:COVID-19  (图片出自网络)一组分别针对男性和女性的随机对照试验结果表明,男性在接受治疗的情况下,有57%的几率康复,而在不接受治疗的情况下,只有37%的几率康复。另一方面,女性在接受治疗的情况下,康复率为55%,在不接受治疗的情况下,康复率为45%。我们可能会得出这样的结论:男性的治疗效果比女性更佳。但事实并没有这么简单。

事实证明,数据可以用多种方式进行解释。我们看男性治疗的数据,有两种极端的解释,第一种是:治疗组和未治疗组之间20%的差异挽救了20%本来会死亡的患者的生命;第二种极端的解释是,治疗挽救了所有57%的患者的生命,而实际上杀死了37%的其他病人。

再看女性的数据,在第一种极端的解释中,55%的康复率中有10%是通过治疗挽救的,45%无论如何都会恢复。在第二种极端的解释中,55%的患者被治疗所挽救,而45%被治疗所杀死。

综上所述,受益人的百分比,对于男性来说,可能在20%到57%之间,而对于女性来说,可能在10%到55%之间。

现在设置Y为因变量,y表示康复,y'表示死亡。X表示自变量,x表示治疗,x'表示不治疗。用y(x)表示接受治疗后康复的事件,y(x')表示没有接受治疗并康复的事件。用y'(x)表示治疗后死亡的事件,y'(x')表示没有接受治疗后死亡的事件。用P(y(x))表示在实验组接受治疗并康复的概率,用P(y'(x'))表示没有接受治疗并死亡的概率。我们用PNS表示男性与女性因治疗而受益的概率。

如下图所示,以男性为例,当P(y(x))=0.57,P(y(x'))=0.37时,0.2<=PNS<=0.57。这里也符合之前的猜想。令P(x)=0.4,P(y|x)=0,P(y|x')=0,同样,令P(y(x))=0.57,P(y(x'))=0.37,这时得出的结果是0.57<=PNS<=0.57,意思是57%的男性可以从治疗当中受益。

图6:结合实验数据,计算得出57%的男性能够从治疗中受益再看女性的例子,我们令P(x)=0.45,P(y|x)=1,P(y|x')=0,再令P(y(x))=0.55,P(y(x')=0.45。得到的结果是PNS=0.1。

现在我们知道,57%的男性和10%的女性能够从治疗当中获益。

但是我们不能只考虑因治疗受益的因素,还要考虑没有因治疗而受益(或者说因治疗而受害)的因素。将之前同样的数值代入,得到的结果是37%的男性因治疗而受害,而0%的女性因治疗而受害。

在实验组(接受治疗)中,我们治愈一个人,对社会的益处只能算作一个单位;在对照组(不接受治疗)中,我们没有让某人接受治疗,对社会造成的危害是2个单位,因为我们失去了能够治愈某人的机会。综上所述,男性:1*0.57-2*0.37=-0.17;女性:1*0.1-2*0=0.1。所以,如果你是一名决策者,你应该优先治疗女性。

4. 因果革命的数理框架

当然,反事实算法仅是Judea Pearl 多年来因果理论研究的一部分,关于他整个因果推理体系的数理框架,体现在他设计的结构化因果模型(Structural  Casual Models,SCM)之中,这是Pearl  为了突破现有机器学习对于因果推断的理论限制、推动一场全新的“因果革命”而打造的核心引擎。

Judea Pearl  在2020年5月31日更新于博客的一篇近期访谈中,认为SCM灵活地整合了当今统计模型的主要优点和方法,特别是结合了图模型和潜在的输出逻辑,其中图用来编码“我们所知道的”,逻辑用来编码“我们想要知道的”,然后用数学工具将这两类数据进行结合。

这里我们选取SCM的主要逻辑部分作一个简介,关于它进一步的详细内容,推荐大家阅读 Judea Pearl  2019年发表于ACM会议的报告《The Seven Tools of Causal Inference, with Reflections on Machine Learning》[3]。

SCM主要包括:图模型、反事实和介入式逻辑、 结构化方程三部分。图模型作为表征知识的语言,反事实逻辑帮助表达问题,结构化方程以清晰的语义将前两者关联起来。

如图8所示,SCM引擎接受三种输入:假设(Assumptions)、查询(Queries)和数据(Data),并生成三种输出:被估量(Estimand)、估计值(Estimate)和拟合指数(fit indices)。被估量(E_S)是一个数学公式,该公式基于假设,提供从任意假设数据中回答查询的方法(可获取假设数据的情况下)。在接收到数据后,该引擎使用被估量来生成问题的实际估计值 E_s hat,以及问题置信度的统计估计值(以反映数据集的有限规模,以及可能的衡量误差或缺失数据)。最后,该引擎生成一个“拟合指数”列表,可衡量数据与模型传递的假设的兼容性。

图7:Judea Peal的结构化因果模型(Structural  Casual Model,SCM)此外,这里还推荐大家阅读马克斯·普朗克智能系统中心主任 Bernhard Schölkopf  在2019年12月发表的一篇论文《CAUSALITY FOR MACHINE LEARNING》[4],它详细讨论了Pearl 的因果推理理论和机器学习的联系,不仅得到了Judea Pearl 本人在Twitter 上的高度认可,甚至还得到了另一位图灵奖获得者Yann LeCun的“点赞”。

在NIPS 2017 某个研讨会 Q& A 上,Judea Pearl 曾经这么解释他心中的因果革命:“30年前,我们还无法为‘Mud does not cause Rain’编写一个公式;现在,我们可以公式化和评估每一个因果或反事实陈述”。

 5.人工智能领域最好的学者

图8:人工智能的科幻图(图片来自网络)Judea Pearl 笃信“绝对能开发出具有自由意志的机器人”,其路径便是“因果推理代替关联推理”,他并不担心可能存在的“机器人作恶”问题:“我们能够制造出有能力辨别善恶的机器,它至少应该和人类一样可靠,而且有望比人类更可靠。我们对道德机器的首要要求是它能够反省自己的行为,其涉及反事实分析。一旦我们编写完使机器实现自我觉察的程序,我们就能赋予机器以同理心和公平感,因为这些程序建基于相同的计算原则。”

2017年间,Facebook、Twitter等社交网站曾闹了个“乌龙”:大家热传一张Judea Pearl在NIPS 2017 上对着“空无一人的房间演讲”的照片,感慨真是“机器学习悲惨的一天”,事后发现这是因摄影师拍摄角度而导致的误会。但这个乌龙能快速传播,本身也说明Judea Pearl 这么多年来在学术领域一直处在以孤军作战的状态。Judea Pearl 本人喜欢说这么一个段子:1960年代,他从纽约某不知名大学博士毕业后,去各校求职屡屡碰壁,总被告知“从来没听说过这个学校”,以至于最终UCLA对他的接纳,成为他人生中“除了娶我太太以外最重要的事情”。

这个段子给笔者的印象是,Judea Pearl似乎天然有一种唐吉柯德般的战士情节:总是在践行一条少数人走的未知道路。同时,当我们细细探寻他多年来放弃轻易可获的鲜花和掌声、孤身探寻强人工智能和因果革命之心路轨迹,会发现背后支撑他的心灵能量——笃信人类智慧可以编写出“人工智能为善”的源代码。因此,笔者以机器学习领域奠基人、加州大学伯克利计算机系教授 Michael I Jordan 曾经对他的评价作为本文的结尾:

Judea Pearl 教授是AI 领域最好的学者,没有之一。

参考文献

[1]朱迪亚·珀尔(Judea Pearl),达纳·麦肯齐(Dana Mackenzie). 为什么:关于因果关系的新科学[M]. 北京:中信出版集团股份有限公司,2019年7月

[2]Judeal Pearl. Which Patients are in Greater Need: A counterfactual analysis with reflections on COVID-19,http://causality.cs.ucla.edu/blog/

[3]Judeal Pearl. The Seven Tools of Causal Inference, with Reflections on Machine Learning,https://cacm.acm.org/magazines/2019/3/234929-the-seven-tools-of-causal-inference-with-reflections-on-machine-learning/fulltext

[4]Bernhard Schölkopf. 2019.CAUSALITY FOR MACHINE LEARNING. arXiv:1911.10500

AMiner学术头条
AMiner学术头条

AMiner平台由清华大学计算机系研发,拥有我国完全自主知识产权。系统2006年上线,吸引了全球220个国家/地区800多万独立IP访问,数据下载量230万次,年度访问量1000万,成为学术搜索和社会网络挖掘研究的重要数据和实验平台。

https://www.aminer.cn/
专栏二维码
理论AI贝叶斯网络Judea Pearl
相关数据
朱迪亚·珀尔人物

朱迪亚·珀尔(英语:Judea Pearl,1936年-),美国以色列裔计算机科学家和哲学家,因其人工智能概率方法的杰出成绩和贝氏网络的研发而知名。2011年,他因通过概率和因果推理的算法研发在人工智能取得的杰出贡献而获得图灵奖。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

曲线拟合技术

曲线拟合(fit theory),俗称拉曲线,是一种把现有数据透过数学方法来代入一条数式的表示方式。科学和工程问题可以通过诸如采样、实验等方法获得若干离散的数据,根据这些数据,我们往往希望得到一个连续的函数(也就是曲线)或者更加密集的离散方程与已知数据相吻合,这过程就叫做拟合 (fitting)。

因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

弱人工智能技术

弱人工智能(weak AI),也被称为窄AI,是专注于某一特定狭窄领域任务的人工智能。 相对于可以用来解决通用问题的强(泛)人工智能,几乎目前所有的人工智能都属于弱人工智能的范畴I。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

统计模型技术

统计模型[stochasticmodel;statisticmodel;probabilitymodel]指以概率论为基础,采用数学统计方法建立的模型。有些过程无法用理论分析方法导出其模型,但可通过试验测定数据,经过数理统计法求得各变量之间的函数关系,称为统计模型。常用的数理统计分析方法有最大事后概率估算法、最大似然率辨识法等。常用的统计模型有一般线性模型、广义线性模型和混合模型。统计模型的意义在对大量随机事件的规律性做推断时仍然具有统计性,因而称为统计推断。常用的统计模型软件有SPSS、SAS、Stata、SPLM、Epi-Info、Statistica等。

强人工智能技术

强人工智能或通用人工智能(Strong AI或者 Artificial General Intelligence)是具备与人类同等智慧、或超越人类的人工智能,能表现正常人类所具有的所有智能行为。强人工智能是人工智能研究的主要目标之一,同时也是科幻小说和未来学家所讨论的主要议题。相对的,弱人工智能(applied AI,narrow AI,weak AI)只处理特定的问题。弱人工智能不需要具有人类完整的认知能力,甚至是完全不具有人类所拥有的感官认知能力,只要设计得看起来像有智慧就可以了。由于过去的智能程式多是弱人工智能,发现这个具有领域的局限性,人们一度觉得强人工智能是不可能的。而强人工智能也指通用人工智能(artificial general intelligence,AGI),或具备执行一般智慧行为的能力。强人工智能通常把人工智能和意识、感性、知识和自觉等人类的特征互相连结。

贝叶斯网络技术

贝叶斯网络(Bayesian network),又称信念网络或是有向无环图模型,是一种概率图型模型。例如,贝叶斯网络可以代表疾病和症状之间的概率关系。 鉴于症状,网络可用于计算各种疾病存在的概率。

因果推断技术

因果推断是基于效应发生的条件得出关于因果关系的结论的过程。因果推理和关联推理之间的主要区别在于,前者分析了原因发生变化时效应变量的反应。事情发生的科学被称为原因学。Causal Inference是Causal reasoning一个例子。

暂无评论
暂无评论~