因果关系分析方法简介

1 引言

与相关关系相比,因果关系是对问题更本质的认识。诸如物理学、行为学、社会学和生物学中许多研究的中心问题是对因果的阐述,即对变量或事件之间直接作用关系的阐述。例如,一种新型药物在给定患者人群中疗效如何?一个新的法规可避免多大比例的犯罪?在一个特定事故中,个体死亡的原因是什么?这些都是因果问题,因为要回答这些问题都需要有数据生成过程的知识。这些问题的答案不能单独通过计算数据获得也不能单独从控制观测数据的分布中获得。分析因果关系的黄金法则是实施随机对照实验。多数情况下实施实验的代价很高或者由于客观条件、伦理道德等因素的限制使得随机对照实验根本不可行。

然而随着互联网和数据科学的发展,收集非实验的观测数据却要容易的多。所以到目前为止发展了一些从数据中自动挖掘这种因果的方法。目前,至少有三类挖掘本质因果的方法,它们在使用的数据类型和自动化程度上都存在差异。第一类方法是随机对照实验方法。它要求分析者要对实验数据的产生过程有很深入的了解以及很高的控制能力。第二类方法是准实验设计方法,它是一种在社会学研究中被大量使用的方法。这种方法是在观测数据中试图寻找能像随机实验方法一样满足因果推断条件的情形来进行观测数据上的因果推断(Shadish et al., 2002; Campbell and Stanley, 2015; Thyer, 2012)。第三类方法是联合模型方法,大致上又分为图模型方法和虚拟事实模型方法。这种方法在一些假设的前提下自动对联合概率分布进行估计来从非实验数据或者观测数据中推断因果。

这三种方法面临一些共同的挑战。首先,这些方法都需要识别一对变量之间是否存在统计相关性。推断统计相关性的原则和方法,即统计假设检验,已经提出了几十年。不管对于人工的还是自动的算法来说解决这个问题的困难都不大,但却也仍旧存在一些挑战。比如,它的对立面问题:统计独立性检验和完全的条件独立性检验就仍旧是一个非常活跃的研究领域(Sriperumbudur et al., 2010; Szekely et al., 2009; Gretton et al., 2012; Zhang et al., 2012)。其次,这些方法必须要识别潜在因果的方向,即哪个为因哪个为果。对于这个问题往往通过考虑时序的方法来解决,即先发生的为因后发生的为果。但是在联合模型方法中也常常用一些其它的方法,下文详述。最后,这些方法都必须要避免其它的混淆因素的影响,即其它潜在的共同原因对变量之间因果关系的干扰。本文将详细论述不同类型的方法对于解决这些问题的尝试。

2 随机对照实验

当今对于挖掘有效的因果知识来说,可能最普遍的方法就是随机对照实验。在过去的50多年中,生物学、物理学和社会科学等的快速发展扩张很大一部分有赖于如何设计实验并分析结果的知识。对于实验设计方法的发现整理并传播代表了过去一个世纪以来的人类智力成果。随机对照实验这种方法包含了两个非常关键的概念,即控制和随机化。控制通常涉及研究人员有目的的设置一些变量的替代值的能力,然后比较这些替代设计的效果。控制是“实验”这个概念的核心,并且有相当长的历史。最早可以追溯到John Stuart Mill(1843)或许还可以追溯到更早一个世纪的时间(Boring, 1954)。通过在实验中控制变量的方法,研究人员既可以通过保持变量不变来屏蔽掉变量的效果,又可以通过系统的改变变量值来得到变量改变的效果。但是,要做到这样研究人员就必须知道特定变量的存在情况并且能够改变和控制它们的值。

图1: 药效评价的随机对照实验

随机化涉及实验组随机分配对象的方法(例如随机分配医学实验中的病人),这样研究人员就无法控制实验对象的特征也不能系统的影响被研究的变量。如果实施了随机化,这些不被控制的特征的影响就会被均匀的分摊到足够大的组内。19世纪20年代R.A.Fisher就概括了随机化的原则和它在实验设计中的应用(Fisher, 1925),自此随机化也成为了实验设计的重要内容。随机化的特别之处在于它能移除那些对研究者们来说透明变量的影响。例如图1所示,只要把病人随机地分配到实验组中研究者就不需要知道哪个具体的遗传因素可能会影响病人对某种特定药物的反应。研究实验环境现象的学者一般都会控制他们能够系统改变的变量或者能保持不变的变量并且对其它的大多数甚至全部变量进行随机化。通过这两种方法,就能够研究能被直接操控的变量的效果并且屏蔽掉几乎全部的其它潜在原因。

近几年,使用这种随机对照实验的方法,有大量的学者在社会媒体上做了大量有意义的研究和探索。Centola等人邀请1540名志愿者并随机地将他们一对一的分配到小世界特征的随机网络和高聚类的规则网络中的,并观察研究两种不同网络下行为的传播规律来确定社会网络结构对与行为蔓延的因果作用(Centola, 2010)。基于相同的原理,Centola又基于性别、年龄及身体质量指数等特征,随机化地把在线社会网络中的用户分成两组,并让一组人员相互之间能发挥同质性作用,另一组完全没法发挥同质性作用,然后通过分析用户的健康饮食日志在网络中传播的情况分析人口组成的同质性对健康行为传播和革新采纳的因果作用(Centola, 2011)。Lewis等人也通过这种随机对照实验的方法研究在线社会网络上导致同质性的原因到底是社会选择还是社会影响(Lewis et al., 2012)。Aral等人把Facebook上的140万朋友关系作为研究对象,使用随机对照实验的方法研究这些朋友关系所实施的同伴影响对同伴在某些产品使用上的因果作用(Aral and Walker, 2011),并且于2013年使用随机对照实验的方法研究社会媒体上的已有的用户投票结果对于后来者给出好评或坏评的因果作用(Muchnik et al., 2013)。

3 准实验设计

准实验设计是社会科学领域中经常使用的因果推断方法,一般简称为QEDs(Thyer, 2012)。这种方法试图利用能部分模拟对照实验环境的观测数据集来做因果识别[29, 30]。虽然QEDs无法总能具有像随机对照实验那样的内部合理性,但是QEDs却增加了可分析数据的广度,尤其是对那些无法进行随机对照实验的情形问题中的因果推断,因此弥补了随机对照实验的某些不足, 它们之间的关系如图2所示。

图2: 准实验设计与随机对照实验的关系

在没有明确的控制和随机化的情形下,有些QEDs使用匹配的方法来确定对比数据实例对,以保证除了研究目标变量外的其它变量尽可能的相似,即非等值组设计。还有一些其它的QEDs研究相同数据实例上给定变量在特定事件前后随时间的变化,即断点回归方法。还有一些其它类型的QEDs,包括proxy pretest design(Cook et al., 1979)、double pretest design(Shadish et al., 2002)、nonequivalent dependent variables design[29]、pattern matching design(Knuth et al., 1977)和regression point displacement design(Linden et al., 2006)。

准实验设计有一定的优越性。首先,它在因果推断内部合理性方面超越统计控制方法,因为它可以控制全部变量,即使这些变量没有被识别、度量和建模。其次,它在外部合理性上超越随机对照实验。因为准实验设计使用的是真实系统中的数据而不是人造实验环境下产生的数据。随机控制实验在因果推断上的有效性需要很高的代价,因此随机对照实验有很高的内部有效性,但是需要牺牲外部有效性(即泛化到真实世界)。相反,准实验的方法具有很高的外部有效性。第三,QEDs不需要额外地收集数据反而可以把它们用于现有的数据集并推断出很强的因果结论。最后,QEDs不排斥其它的因果推断方法,它可以很好的辅助统计控制方法和随机实验方法。当然QEDs也有一些局限性,比如:人工的QEDs只能用于有限的因果推断情形,例如双胞胎研究;由于QEDs只使用数据的子集来推断因果依赖,因此对与数据子集的代表性就要求很高。

准实验设计方法上非常著名的例子是双胞胎比较研究。这个研究已经延续了数十年了,其目的是探索某些疾病和情况的原因。比较同卵双胞胎集合和异卵双胞胎集合在某种疾病上的发病率。同卵双胞胎有相同的基因、共同的胎儿期环境和几乎相同的成长环境。异卵双胞胎也有相同的胎儿期环境和几乎相同的成长环境,但他们基因却不是完全相同而只是相似。这种典型的相似背景以及这两种类型的双胞胎在相似背景下又有特定的不同,为研究遗传因素在疾病上的作用提供了接近理想的环境。例如,为了识别某些已知的情况是由于遗传因素导致的,研究人员就可以在每种类型的成对双胞胎上确定相关性并且比较两种类型的相关性。如果差异大说明这个特定情况很大部分是由于遗传因素,反之如果没什么不同则说明这种情况是由于其他因素。

但是在传统的QEDs中所有的步骤都是人工分析。这种方式耗时耗力,每次QEDs都要重复一遍所有的步骤。为了解决人工QEDs效率低下的缺陷,Jensen等人提出了关系型数据上自动识别QEDs的方法AIQ(自动准实验识别)(Jensen et al., 2008; Jensen, 2007)。Oktay等人使用这种自动的QEDs识别框架分析社会媒体上的因果分析否定了人们对于问答社区中的认识“高质量答案的出现会导致用户继续贡献答案的积极性下降”(Oktay et al., 2010)。


4 图模型

对于因果推断的图模型方法研究是因果推断领域最活跃的研究方向之一。图模型的优越性在于直观,并且很容易的就可以把因果推断和概率独立性理论联系起来。除了少部分的学者研究线性有环模型上的因果推断(Hyttinen et al., 2012; Scheines et al., 2010; Hyttinen et al., 2010),大部分图模型上的因果推断研究都是基于DAG(有向无环图)的。对于DAG,一般有两种观点认识它:一种是将DAG看成是表示条件独立性的模型;另一种观点则是将其看成是表示数据生成机制的模型。而因果推断中常常使用的DAG是将其看成数据生成机制的模型,一般称其为贝叶斯网络或贝氏网络。贝叶斯网络中的节点代表随机变量,节点间的边代表变量之间的直接依赖关系(也可以看成因果关系),每个节点都附有一个概率分布,根节点$X$所附的是它的边缘概率分布P(X),而非根节点X所附的的是条件概率分布P(X|π(X))。

贝叶斯网络可以从定性和定量两个层面来理解。在定性层面,它用一个DAG描述了变量之间的依赖和独立关系。在定量层面,它用条件概率分布刻画了变量对其父节点的依赖关系。在语义上,贝叶斯网络是联合概率分布的分解的一种表示。它表征多个随机变量的联合生成的概率分布(张连文 and 郭海鹏, 2006)。更具体地,假设网络中的变量为X1,...,Xi,那么把各个变量所附有的概率分布想成就得到联合概率分布,即

其中,π(Xi)表示变量Xi在贝叶斯网络中的直接父节点。

贝叶斯网络的构造方式有两种,一种是专家手工构建,另一种是通过数据分析来获得。前者存在很大的缺陷,首先,人工构建贝叶斯网络需要对这个贝叶斯网络所代表的问题本身有深刻的理解;其次,人工构建往往会遗漏掉一些变量。既然贝叶斯网络是描述数据生成机制的模型,那就假设所有存在因果关系的观测数据都是基于一个贝叶斯网络的。那么如何从观测数据中学习出这个贝叶斯网络就成了一个非常重要的课题,即如何通过分析观测数据获得贝叶斯网络的结构和参数,其中参数一般指贝叶斯网络中非根节点的条件概率表。然而贝叶斯网络中的因果结构学习比贝叶斯网络结构学习要求更严格,因为表征因果结构的贝叶斯网络中每一条边都表征的是因果关系。大多数因果结构学习算法都有一个强假设:对所有变量A、B间的因果推断,可以观测所有潜在直接或间接的共同原因,既不存在图10所描述的情况。如此因果图G(V,E)上a∈ V,b∈ V间的结构学习就变成了基于D-分割理论的独立性检验问题:p(a,b|c∈ V - {a,b})是否等于p(a|c)p(b|c)。

图3: D-分割的三种情况

D-分割理论是贝叶斯网络的基础。它是一种用来判断变量是否条件独立的图形化方法。对于一个DAG,D-分割方法可以很快的判断出两个变量是否是条件独立的。D-分割一共有三种情况,第一种情况是一个节点连接另外两个节点的箭头尾部,如图3(A)所示。根据公式(1)和图3(A)可知如果c是可观测的变量则a和b是给定c条件独立的。如果c不作为观察变量则a和b不是给定c条件独立的。第二种情况是一个节点分别连接另外两个节点的头部和尾部,如图3(B)所示。由图可知如果c是可观测变量则可得a和b是给定c条件独立的。如果c不是可观测变量则可得a和b不是给定c条件独立的。第三种情况是有两个节点都共同的指向第三个节点,如图3(C)所示。如果c作为观测变量则a和b不是给定c条件独立的。如果c不作为观察变量则可得a与b是独立的。

图4: do操作和condition

根据上述的D-分割理论,Judea Pearl提出了do算子的概念(Pearl, 1995)。do的意思可以理解成“干预”。没有“干预”的概念,很多时候没有办法谈因果关系。在DAG中do(Xi) = x’i表示如下操作:将DAG中指向Xi的所有的有向边全部切断,且将Xi的取值固定为常数xi。如此得到新的DAG的联合分布可以记为p(x1,…,xn|do(Xi)= x’i)可以证明干预后的联合分布为:

请注意 p(·|do(Xi) = x’i))和p(·|Xi = x’i))在很多情况下是不同的。如图 4(1)中所示

p(B=b|A=a)=p(B=b|do(A) = a)。因为A是B的“原因”,“条件”和“干预”A对应的B的分布相同。但在图 4(2)中有p(B=b|A=a)=p(B=b|do(A) = a),由于A是B的“结果”,“条件”,“结果”,“原因”的分布不再等于它的边缘分布,但人为的“干预”结果A并不影响原因B的分布。

5 虚拟事实模型

1974年哈佛大学统计系的Rubin提出了一种因果作用模型(Rubin, 1974),此模型与Lewis的虚拟事实理论(Counterfactual)(Lewis, 2013)在理论上相似,所以统称为虚拟事实模型。该模型的核心就是引入了一个叫做“虚拟结果”的结果。比如,我们能同时观测到同一个个体在接受“处理”和未接受处理的两个“结果”的话,我们就可以使用这两个“结果”的差异来评价“处理”对这个个体的因果作用。但是,在一般情况下这个个体在接受处理和不接受处理两种情况中只能选择一个,要么接受“处理”,要么不接受“处理”。例如,我们假设一家医疗单位要测试一种新药对于一种疾病的疗效。如果试吃药物的对象在吃完药后还能再回到和吃药前一模一样的状态。那么我们就可以设置这样的实验:让试药者试吃药物一段时间T后记录结果R1,然后让试药者回到吃药前的状态不做任何治疗,时间T后记录结果R2。那么分析R1与R2的差别,就是这种新药对于这种疾病在这个实验对象上的因果作用。显然,这种假设是不合理也是无法实现的,所以那个无法观测到结果就叫做虚拟结果。基于虚拟事实模型进行观察性研究的因果推断时需要一些假定,而这些假定是无法用观测数据进行检验的。虽然虚拟事实模型的理论很完备,但是由于这些假设使得它的实用性上存在缺陷。虚拟事实模型的理论形式如下所述。

假设Zi表示个体i接受处理与否,处理取1,对照取0;Yi表示个体i的结果变量。另外记Yi(1),Yi(0)表示个体i接受处理或者对照的虚拟结果(potential outcome),那么Yi(1)-Yi(0)表示个体i接受治疗的个体因果作用。不幸的是每个个体要么接受处理,要么接受对照Yi(1),Yi(0)中必然缺失一半,个体的因果作用是不可识别的。观测的结果是Yi=ZiYi(1)+(1-Zi)Yi(0), Zi的取值要么是0要么是1。但是,在Z做随机化的前提下,我们可以识别总体的平均因果作用(ACE):

这是因为

最后一个等式表明ACE可以由观测的数据估计出来。其中第一个等式用到了期望算子的线性性质;第二个式子用到了随机化,即Z ⊥ {Y (0), Y (1)},其中⊥表示独立性。由此可见,随机化试验对于平均因果作用的识别起着至关重要的作用。

6 总结与展望

诸如物理学、行为学、社会学、医学与生命科学领域中许多研究的中心问题是对因果的阐述,即变量或事件之间直接作用关系的阐述。本文主要简单介绍了四类因果分析的方法。随着计算机科学的发展,数据存储问题的解决,各学科大数据的兴起,面向预测的关联性分析已经不能满足我们的需求。但是仍旧没有适用于大数据上的高效的因果分析方法、模型。如何在各领域大数据上利用因果分析模型方法来获取可信的因果知识近年来并没有什么突破性的进展,仍然是一个开放问题。

References

[1] 张连文 and 郭海鹏. 2006. 贝叶斯网络引论.

[2] Sinan Aral and Dylan Walker. 2011. Identifying social influence in networks using randomized experiments. IEEE Intelligent Systems, 26(5):91–96.

[3] Edwin G Boring. 1954. The nature and history of experimental control. The American journal of psychology, 67(4):573–589.

[4] Donald T Campbell and Julian C Stanley. 2015. Experimental and quasi-experimental designs for research. Ravenio Books.

[5] Damon Centola. 2010. The spread of behavior in an online social network experiment. science, 329(5996):1194– 1197.

[6] Damon Centola. 2011. An experimental study of homophily in the adoption of health behavior. Science, 334(6060):1269–1272.

[7] Thomas D Cook, Donald Thomas Campbell, and Arles Day. 1979. Quasi-experimentation: Design & analysis issues for field settings, volume 351. Houghton Mifflin Boston.

[8] Ronald Aylmer Fisher. 1925. Statistical methods for research workers. Genesis Publishing Pvt Ltd.

[9] Arthur Gretton, Karsten M Borgwardt, Malte J Rasch, Bernhard Scho ̈lkopf, and Alexander Smola. 2012. A kernel two-sample test. Journal of Machine Learning Research, 13(Mar):723–773.

[10] Antti Hyttinen, Frederick Eberhardt, and Patrik O Hoyer. 2010. Causal discovery for linear cyclic models with latent variables. on Probabilistic Graphical Models, page 153.

[11] Antti Hyttinen, Frederick Eberhardt, and Patrik O Hoyer. 2012. Learning linear cyclic causal models with latent variables. Journal of Machine Learning Research, 13(Nov):3387–3439.

[12] David D Jensen, Andrew S Fast, Brian J Taylor, and Marc E Maier. 2008. Automatic identification of quasi- experimental designs for discovering causal knowledge. In Proceedings of the 14th ACM SIGKDD interna- tional conference on Knowledge discovery and data mining, pages 372–380. ACM.

[13] David D Jensen. 2007. Beyond prediction: Directions for probabilistic and relational learning. In International Conference on Inductive Logic Programming, pages 4–21. Springer.

[14] Donald E Knuth, James H Morris, Jr, and Vaughan R Pratt. 1977. Fast pattern matching in strings. SIAM journal on computing, 6(2):323–350.

[15] Kevin Lewis, Marco Gonzalez, and Jason Kaufman. 2012. Social selection and peer influence in an online social network. Proceedings of the National Academy of Sciences, 109(1):68–72.

[16] David Lewis. 2013. Counterfactuals. John Wiley & Sons. Ariel Linden, William MK Trochim, and John L Adams. 2006. Evaluating program effectiveness using the regression point displacement design. Evaluation & the Health Professions, 29(4):407–423.

[17] Lev Muchnik, Sinan Aral, and Sean J Taylor. 2013. Social influence bias: A randomized experiment. Science, 341(6146):647–651.

[18] Hu ̈seyin Oktay, Brian J Taylor, and David D Jensen. 2010. Causal discovery in social media using quasi- experimental designs. In Proceedings of the First Workshop on Social Media Analytics, pages 1–9. ACM.

[19] Judea Pearl. 1995. Causal diagrams for empirical research. Biometrika, 82(4):669–688.

[20] Donald B Rubin. 1974. Estimating causal effects of treatments in randomized and nonrandomized studies. Journal of educational Psychology, 66(5):688.

[21] Richard Scheines, Frederick Eberhardt, and Patrik O Hoyer. 2010. Combining experiments to discover linear cyclic models with latent variables.

[22] William R Shadish, Thomas D Cook, and Donald T Campbell. 2002. Experimental and quasi-experimental designs for generalized causal inference. Houghton, Mifflin and Company.

[23] Bharath K Sriperumbudur, Arthur Gretton, Kenji Fukumizu, Bernhard Scho ̈lkopf, and Gert RG Lanckriet. 2010. Hilbert space embeddings and metrics on probability measures. Journal of Machine Learning Research, 11(Apr):1517–1561.

[24] Ga ́bor J Sze ́kely, Maria L Rizzo, et al. 2009. Brownian distance covariance. The annals of applied statistics, 3(4):1236–1265.

[25] Bruce A Thyer. 2012. Quasi-experimental research designs. Oxford University Press.

[26] Kun Zhang, Jonas Peters, Dominik Janzing, and Bernhard Scho ̈lkopf. 2012. Kernel-based conditional indepen- dence test and application in causal discovery. Proc. of the UAI 2011.


本文来源于哈工大SCIR

原文链接点击即可跳转

入门入门因果关系概率图模型贝叶斯网络
哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检所研究中心

哈工大SCIR
哈工大SCIR

哈尔滨工业大学社会计算与信息检索研究中心

返回顶部