因果推断是在一个较大系统内部确定指定现象(因)的实际、独立效果(果)的过程。因果推断和相关性推断的主要区别是前者分析结果变量在其原因变量变化时发生的回应。[1][2] 研究事物起因的科学则称作原因论。因果推断可给出因果关系推理英语Causal reasoning建立的因果关系模型的证据。

因果推断在所有科学中都得到了广泛研究。近几十年来,旨在确定因果关系的方法论中出现了多项创新发展和应用。在许多科学问题中,常常出现难以或不可能进行实验的情况,这时因果推断仍然特别困难。

因果推断广泛适用于所有类型的科学学科,而且许多针对特定学科设计的因果推断方法也可应用到其他学科。本文概述了因果推断的基本步骤,并详细介绍不同学科中使用的传统测试方法;这不意味着那些方法只适用于特定学科,这只表示它们是该学科中最常用的。

因果推断很难执行。科学家就确定因果关系的正确方法存在重大争论。尽管已有新方法,部分人仍担心,科学家可能误将相关性判断为因果关系,亦可能使用了不正确的统计方法,甚至故意操纵分析结果以获得统计上显著的估计值。这种问题在回归模型,尤其是线性回归模型的使用上更为明显。

定义

推断原因的过程可描述为:

  • “⋯⋯通过推理总结出某事是,或很可能是,其他事的原因。” [3]
  • “通过建立原因和结果之间的协变、时序关系,以及通过排除可能的替代原因,识别出现象的一个或多个原因的过程。” [4]

方法论

通用方法

当系统的一个变量可能影响另一个变量时,可以进行因果推断。因果推理是根据科学方法进行的。因果推断的第一步是制定一个可证伪的零假设,随后用统计方法对其进行检验频率学派推断利用统计方法确定数据在零假设下偶然出现的概率:用贝叶斯推断确定自变量的影响。一般而言,统计推断可用于区分出原始数据变量的变化是出自随机浮动,抑或是明确的因果机制的影响。[5]注意,相关不蕴涵因果,因此对因果关系的研究,以及对潜在因果机制(例如中介变项的存在性)的研究,都需要同样关注数据之间的变化。[来源请求]因果推断研究经常希望进行随机对照试验,其中干扰因素全部维持不变。此为推断因果的一个标准方法。因果推断中最消耗精力的部分往往在于试图复制实验条件。

流行病学研究采用不同的流行病学方法英语Epidemiological method来收集和测量危险因子和结果的数据,以及使用不同方法刻划这种关联性。2020年一份对因果推断方法的综述发现,要将现有文献用于临床培训将会很有挑战性。这是因为这些已发表的文章通常预设读者有深厚的技术背景,它们可能从统计学、流行病学、计算机科学、哲学的角度切入;而且各种不同方法论的方法继续迅速扩展;此外,因果推断的许多角度在文献中篇幅有限。 [6]

因果推理的常见框架是结构方程模型英语Structural equation modelling鲁宾因果模型[来源请求]

实验方法

实验方法可以验证因果机制。实验是为了有目的地操纵感兴趣的变量,同时保持其他实验变量不变。仅操纵某变量的情况下,若对实验结果产生了统计上显著的影响,则有理由相信该变量引发了一定的因果效应(但需同时假设实验设计满足了一定的标准)。

准实验方法

当传统的实验方法不可用时,可以对因果机制进行准实验验证。这可能是由于实验的成本过高,或者实验本身就不可能进行,例如研究大型系统(如与选举制度相关的经济学)的实验,或可能对测试对象造成危害的试验。出于法律原因无法收集信息的情况下,也可能进行准实验。

流行病学方法

流行病学研究特定生物群体的健康和疾病模式,以推断起因和结果。假定的危险因子与疾病之间的相关性可能提示了因果,但并不等同于因果,因为相关不蕴涵因果。从历史上看,柯霍氏法则自19世纪以来一直被用于确定微生物是否是疾病的起因。在20世纪1965年总结出的希尔准则[7]则早已用于评估微生物学以外的因果关系,但这些标准也不是确定因果关系仅有的方法。

分子流行病学英语Molecular Epidemiology中,研究现象属分子生物学层级。其中遗传学层面的生物标记可以是因果关系的证据。

最近的趋势[何时?]是在新兴的分子病理流行病学英语Molecular pathological epidemiology(MPE)的跨学科领域中,在分子病理学英语Molecular pathology层面上确定风险因子对于患病组织或细胞的影响的证据。将因子与疾病的分子病理特征联系起来可以帮助评估因果关系。[需要第三方来源]生物医学和公共卫生科学的研究趋势也包括研究特定疾病内在的异素性、“独特疾病原理”(unique disease principle,即不同病人有不同病程[8])、疾病表型和亚型,亦体现在个体化医疗英语Personalized medecine精准医学上。[需要第三方来源]

计算机科学方法

对某些模型而言,从两个时间独立变量(例如X和Y)的联合观测数据中,可以根据X → Y(表示X是Y的原因,下同)和Y → X两个方向的数据之间的不对称性确定其因果关系。主要方法基于算法信息论模型和噪声模型。[来源请求]

噪声模型

在模型中加入一个独立的噪声项来比较两个方向的数据。

以下是在假设Y → X下,引入噪声E的一些噪声模型:

  • 加性噪声: [9]
  • 线性噪声: [10]
  • 后非线性噪声: [11]
  • 异方差噪声:
  • 函数噪声: [12]

这些模型中的共同假设是:

  • 不存在Y的其他原因(前置项)。
  • X和E没有共同的原因。
  • 原因的分布独立于因果机制。

直观的想法是,将联合分布P(原因, 结果)分解为P(原因)*P(结果|原因)的总复杂度通常会低于分解为P(结果)*P(原因|效果)。此处“复杂度”的概念尽管在直觉上很有吸引力,却没有明显的精确定义。[12] 另一系列的方法则试图从大量标记数据中发现因果“足迹”,从而预测更灵活的因果关系。 [13]

社会科学方法

社会科学

总体上,社会科学越来越倾于在因果评估中引入定量框架。很多这样的研究为社会科学方法论提供了更严格的手段。1994年Gary King、Robert Keohane和Sidney Verba出版的《社会研究的设计英语Designing Social Inquiry》对政治学影响深远。King、Keohane和Verba建议研究人员同时应用定量和定性方法,并采用统计推断的语言来更清楚地了解他们感兴趣的主题和分析单位。 [14] [15]定量方法的支持者也越来越常采用唐纳德·鲁宾英语Donald Rubin开发的潜在结果模型作为推断因果关系的标准。[来源请求]

尽管社会科学仍然大部分着重于在潜在结果框架中进行统计推断,方法论者开发了新工具,同时使用定性和定量方法,进行因果推断,有时称为“混合方法”方法。[16] [17]使用多元方法的倡导者认为,不同的方法论适用于不同研究主题。社会学家Herbert Smith和政治学家James Mahoney、Gary Goertz引用了统计学家Paul Holland的观察(1986年文章〈统计和因果推断〉[18]的作者):统计推断最适合评估“原因的影响”而不是“影响的原因”。[19] [20]定性方法论者认为,因果关系的形式化模型,包括过程追踪英语Process Tracing模糊集理论,能藉识别案例研究中的关键因素,或藉比较几个案例研究,而提供推断因果的机会。 [15]在可观察量有限,或存在混杂变量的情况下,统计推断的适用性会受限,但此时前述方法仍很有价值。[来源请求] 

经济学和政治科学

经济学政治科学中,由于现实世界中经济和政治的复杂性,以及许多大规模现象无法在受控实验中重现,因果推断通常很困难。由于社会科学家可用的技术提高,加之有更多社会科学家和更多研究,社会科学的因果推理方法又有普遍改进,所以经济和政治科学中的因果推理在方法论和严谨性方面继续得到改进。[21]

尽管确定经济系统中的因果关系本质上很困难,在这些领域中存在几种广泛采用的方法。

理论方法

经济学家和政治学家可以使用理论(通常在理论驱动的计量经济学)来估计在他们认为存在因果关系的情况下,所谓的因果关系的大小。[22]理论家可以预设一个因果机制,并使用数据分析来描述其影响,以证明他们提出的理论是合理的。例如,理论家可以使用逻辑来构建模型,例如假说降雨会导致经济生产力波动,但反之则不然。[23]然而,不提供任何预测见解的纯理论主张被称为“前科学”,因为没有方法预测假定的因果关系的影响。[24]值得重申的是,社会科学中的回归分析本质上并不意味着因果关系,因为仅考虑短期或特定数据集时,可能许多现象表现相关,但在其他时间段或其他数据集并无相关性。因此,若无明确定义的合理因果机制,就断言相关属性具有因果属性,为时过早。

辅助变量

辅助变量(IV)技术是一种确定因果关系的方法。该方法可以消除模型内某解释变量与模型的误差项之间的相关性。这是基于以下原理:如果模型的误差项与另一个变量的变化密切相关,则模型的误差项可能是该解释变量变化的影响。通过引入新的工具变量来消除这种相关性,就能减少整个模型中存在的误差。 [25]

模型指定

模型指定即是选择用于数据分析的模型。社会科学家(实际上,所有科学家)必须正确地选用模型,因为不同的模型擅长估计不同的关系。[26]

指定特定模型可用于确定缓慢出现的因果关系,其中一个时期内某项行动的结果只能在以后的时期出现。值得记住的是,相关性仅衡量两个变量是否具有相似的变化,而非其中一个变量是否单向影响另一个变量;因此,不能仅根据相关性来确定因果关系的方向。因为相信先有因再有果,社会科学家会用模型来专门寻找一段时间内一个变量对另一个变量的影响。这导致计量经济学中,较早发生的现象的变量被视为治理手段(treatment),计量测试则用于寻找数据中此类治理导致的后期变化。若数据中,前期治理手段中有意义的区别紧接着后期结果的有意义的区别,则可能表明治理和变化之间的因果关系(例如,格兰杰因果检验)。此类研究是时间序列分析的示例。[27]

敏感度分析

在同一模型的不同实现中,可能包含或排除不同的变量(回归分析中称为回归量),以区分研究不同的变化来源。这是敏感性分析的一种形式:它研究模型的实现对于添加新变量的敏感性。[28]

使用敏感性分析的主要动机是希望发现干扰因子。干扰因子对统计检验的结果有很大影响,但不是因果推断试图研究的变量。干扰因子可能会导致回归量在一个实现中显得很重要,但在另一种实现中则不然。

多重共线性

另一使用敏感性分析的原因是用于侦测多重共线性。多重共线性是两个变量相关性非常高的现象。两变量间的高度相关性可以剧烈地影响统计分析的结果——高度相关的数据中,细小的变化可能将某个变量的正面影响反转成负面影响,反之亦然。这是方差检验的内禀性质。在敏感性分析中,发现多重共线性很有用,因为在不同的模型实现中删去高度相关变量,就可以避免这些变量带来的剧烈变化。[29]

然而,在预防多重共线性的危害这方面,敏感性分析并不是万能的,尤其是在系统复杂的社会科学中。因为若系统足够复杂,则理论上已不可能考虑所有干扰因子,遑论测量该些因子,所以计量经济学模型容易出现共因谬误,即总结出错误的变量因果关系,而早在原始数据已遗漏正确的变量(共因)。这是一个未能考虑干扰因子的例子。[30]

基于设计的计量经济学

最近,基于设计的计量经济学方法得到改进,令自然实验和准实验研究设计更广泛用于识别因果机制。[31]

因果推断的不端行为

尽管用于确定因果关系的方法的发展取得了进步,但这些方法仍然存在重大缺陷。这些弱点一方面源于确定复杂系统中因果关系的内禀困难,另一方面则源于科学不端行为事件。

撇开因果推断的困难,在一些大的社会科学家群体中,存在大量社会科学家从事非科学的方法论。在经济学和社会学领域内,不乏对于科学家将描述性研究冒充成因果研究的批评。 [24]

科学不端和有缺陷的方法论

在科学领域,尤其是社会科学,学者们担心科学不端行为广泛存在。 因为科学研究主题广泛,即使不是研究者的过错,理论上仍有无限的方式去推翻一个因果关系。但是,科学家仍然疑虑,可能有很多研究者推断因果时,没有履行基本职责,或是没有实践足够多元的方法。[32][33][34] [35]

常见的非因果方法的突出例子是将相关属性错误地假设为因果属性。相关现象中不必然有内在的因果关系。回归模型旨在测量数据中相对于理论模型的变化:即使数据有很高的协方差,也不代表之间有任何有意义的关系(除非已同时提出具有预测特性的因果机制或随机分配治理)。缺陷方法的使用被认为是普遍存在的,这种不当行为的常见例子是过度使用相关模型,尤其是过度使用回归模型,特别地,线性回归模型。 [24]两个相关现象具有内在相关性的假设是一种称为虚假相关性的逻辑谬误。一些社会科学家声称,将虚假相关性视为因果的方法论若被广泛使用,将有损社会科学界的诚信,不过他们亦注意到更好的方法论带来了改进。 [31]

若科学研究将相关性与因果关系混为一谈,则可能产生更多无法获第三方重现粤语再現性的科学结论。这种不可重复性是可预见的,因为该些结论所谓的因果机制,只是将相关性暂时过度概括而成,并无内在因果关系,而新数据不包含之前原始数据的特殊相关性。有关不端行为及因果推断的固有困难的影响的争论仍进行中。[36]批评这些广泛使用的方法论的人认为,研究人员使用统计学的操纵手段来发表文章,而该些文章据称证明因果关系,但实际上只是将虚假相关吹捧为因果关系的证据。这种行为被称为P-hacking英语Data dredging[37]为了防止这种情况,一些人主张,研究人员要在研究之前预先注册他们的研究设计。这样,即使他们在数据分析过程中,在原先调查主题之外,发现其他数据在统计上显著,也不能过分强调该些发现。这些发现往往不可重复。[38]

参见

参考资料

参考书目

外部链接

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.