P值不够科学?800多位科学家联合反对滥用统计显著性

众多「科学家们起来反对统计显著性」,这是 Nature近日发布的一篇评论文章的标题。该文章认为统计显著性的滥用已经给科学界造成了严重的伤害,并呼吁研究者放弃使用统计显著性作为研究结果评估指标。这项呼吁的发起者也向科学界发起了联合签署倡议,目前已有来自52 个国家的 854位科学家在这篇文章之后留下了自己的名字,完整名单请参阅:https://www.nature.com/magazine-assets/d41586-019-00857-9/data-and-list-of-co-signatories。

由于两个分组之间的差异「在统计上不显著」,因此这两个分组「没有差异」。你可能在某个研讨会上听到过发言人做出类似的断言。

如果你和我们一样常常参加研讨会,那么你可能在上一次听演讲时就遇到过这样的说法。我们希望至少有一部分观众会疑惑:如果有图表表明其中实际上存在差异(这实际上经常发生)呢?

统计数据常常导致科学家否认某些差异,而那些未接受过统计学教育的人却又能直观看出这些差异,这是如何发生的?几代人以来,研究者一直在警告:统计不显著的结果并不能「证明」零假设(null hypothesis,即假设各组之间没有差异或一种处理方法对某个测量结果无影响),统计显著的结果也不能「证明」某个假设。大家都知道夸大其辞的文献中充斥着这样的误解,大家可能不太了解的是这可能导致研究的结果之间互相冲突,最后什么也说明不了。

 我们建议科学家不要落入这些误解的陷阱,成为牺牲品。

普遍存在的问题

先说清楚应该停止做什么:我们不应该只是因为 P 值大于某个阈值(比如 0.05),或等价地因为置信区间包含零,就总结说「没有差异」或「不相关」。我们也不应该因为某项研究有统计显著的结果而另一项研究没有,就得出结论说这两项研究存在冲突。这些错误不仅浪费研究工作,而且还会误导政策决策。

比如,假设要对抗炎药的意外效果进行一系列分析。因为它们的结果是统计不显著的,所以有一组研究者得出结论说:使用这些药物与新发心房颤动(最常见的心律紊乱症状)「没有关联」;而这个结果与之前的一项结果统计显著的研究正好相反。

现在,我们看看实际数据。描述其结果统计不显著的研究者发现风险比为 1.2(即用药患者的风险比不用药患者的风险高 20%)。他们还发现了一个涵盖了一切的 95% 置信区间——从 3% 的少量风险降低直到 48% 的显著风险降低(我们的计算是P=0.091)。而之前得到统计显著结果的研究者也发现了同样的 1.2 的风险比。这项研究只是更精确一些,其风险增大区间的范围是从 9% 到 33%(我们的计算是 P=0.0003)。

当区间估计包含严重的风险增大时,得出结论说统计不显著的结果表明「不相关」是很荒谬的;宣称这些结果与之前有相同观察效果的研究相反也同样荒谬。然而,这样的做法很常见,这也表明依赖统计显著性的阈值可能会误导我们(参见「谨防错误结论」)。 

 图源:V. Amrhein 等人

这类错误很普遍。对数百篇文章的调查发现,统计不显著的结果有大约一半都被解读为表示「没有差异」或「无效」。(参见下图「错误解读」)  

2016 年,美国统计协会(American Statistical Association)在《The American Statistician》发表了一份声明,反对滥用统计显著性和 P值。这份期刊还包含了很多有关这一主题的评论。本月,这家期刊还会发布一份特刊,以期进一步推动这些变革。其中包含超过40 篇有关「21 世纪的统计推理:超越 P<0.05 的世界」的论文。该刊的编辑们用一句提醒「不要说统计显著性」引出了这个论文集。另一篇有数十个署名的文章也呼吁论文作者和期刊编辑拒绝这些说辞。 

我们同意并呼吁抛弃「统计显著性」整个概念。 

图源:V. Amrhein 等人

我们可不是特立独行的人。我们邀请了其他人阅读这份评论的草稿,并且请他们如果认同我们想要传递的信息就签署自己的名字,250 位受邀者在 24 小时内就签了名。一周之后,我们就收集了超过 800 个签名——有学术关系或其它指标证明这些签名者当前或过去都在依赖于统计建模的领域工作过(签名者列表和最终数量请参阅补充信息)。这些签名者来自50 多个国家,遍布南极洲之外的所有大陆,其中包括统计学家、临床和医学研究者、生物学家和心理学家。一位倡导者称之为「对统计显著性的轻率测试的外科手术式打击」以及「一个表达你支持更好的科学实践的机会」。

我们并不是呼吁禁用 P 值。我们也不是说它们不能用作特定应用中的决策指标,比如用于确定一个生产制造流程是否满足某个质量控制标准。而且我们也不呼吁出现突然去相信弱证据的任何事情都可接受的情况。相反,和几十年来其他许多人的想法一样,我们呼吁的是停止以传统的二分法的方式使用P 值,即不要完全以 P 值来决定一个结果是否支持一项科学假设。

 别再分类

这个问题更在于人类和认知,而不是统计:将结果分为「统计显著」和「统计不显著」会让人类认为以这样的方式划分的事项是不同类别的。不管是频率方法、贝叶斯方法还是其它方法,任何涉及二分法的统计学替代方法都可能出现这样的问题。 

不幸的是,超过统计显著性阈值就足以表明一个结果是「真实的」这一错误的信念已经让科学家和期刊编辑优先考虑这些结果了,也由此扭曲了文献的意义。统计显著的估计结果在幅度上存在向上的偏差,而且有可能偏差很大;而统计不显著的估计结果则在幅度上存在向下的偏差。因此,如果根据显著性选择估计结果,并以此为重心进行讨论,那么结论将会存在偏差。除此之外,完全侧重于统计显著性会鼓励研究者对数据和方法进行选择,从而达到某个想要结果(或者单纯就是可以发表)的统计显著性,或得到某个不想要结果(比如药物的潜在副作用)的统计不显著性;而这样的选择不能有效地验证结论。

 预先注册研究以及承诺发布所有分析的所有结果能够大大缓解这些问题。但是,因为分析计划中总是会有某些分析不会去做,所以即使来自预先注册的研究的结果也可能存在偏差。即使研究者有最好意图,这种情况也会发生。 

重申一下,我们并不呼吁禁用 P 值、置信区间或其它统计度量——只是我们不应该非此即彼地看待它们。这包括统计显著与统计不显著的二分法以及基于贝叶斯因子等其它统计度量的分类。

避免这种二分法的一个原因是:包括 P 值和置信区间在内的所有统计度量会因研究的不同而自然地有所差异,而且差异往往大到让人惊讶。事实上,单是随机变化就能轻松导致 P 值出现巨大的差异,远远超过只是落到 0.05阈值的任何一侧。举个例子,即使研究者能够执行某个真正效果的两次完美复现的研究,每一次都有 80% 的功效(power,即几率)实现 P<0.05,那么就算一个得到P<0.01,另一个得到 P>0.30 也并不太让人惊讶。不管 P值是小是大,都需要小心谨慎。

我们必须学会拥抱不确定性。一种实用方法是将「置信区间」改名为「相容区间(compatibility intervals)」,并以一种避免信心过度的方式解读它们。具体而言,我们建议论文研究者描述在该区间内的所有值的实际含义,尤其是观察到的效果(或点估计)和限制。在这样做的同时,研究者也应该记住:给定用于计算区间的统计假设,区间限制之间的所有值都与数据合理地兼容。因此,单独取出该区间内的一个特定值(比如无效值)来进行「表明」是没有意义的。

说实在的,在演示、研究文章、评论和教学材料中,我们已经厌倦了看到这些毫无意义的「无效证明(proofs of the null)」。一个包含无效值的区间往往也包含有高度实际重要性的非无效值。也就是说,如果你认为该区间内的所有值都没有实际重要性,那么你可能就会说「我们的结果是最相容的,但没有重要的效果」。

在谈论相容区间时,要记住四件事。第一,给定假设,只是因为该区间给出了与数据最相容的值,并不意味着在该区间外的值就不相容;它们只是相容性较差。事实上,刚好在区间外的值与刚好在区间内的值并没有实质差异。因此宣称一个区间包含了所有可能的值是错误的。

 第二,给定假设,并非相容区间的所有值都与数据同等相容。点估计是最相容的,接近它的值也比接近限制的值更相容。这就是为什么我们要敦促研究者讨论点估计(即使当它们有较大的P 值或较宽的区间),以及讨论区间的限制。举个例子,上面的研究者可能会写到:「和之前的研究一样,我们的结果表明:使用这种抗炎药,病人患新发心房颤动的风险增加了20%。尽管如此,给定我们的假设,风险从 3% 的减少(很小的负相关)到 48% 的增大(显著的正相关)的差异范围也与我们的数据合理相容。」解读点估计,同时告知其不确定性,能让你避免给出「无差异」的错误断言以及给出信心过度的结论。

第三,正如 0.05 阈值这个数值的来处一样,默认 95% 用于计算区间本身就是一个任意的习惯。这基于一个错误的观点,即计算得到的区间本身有95% 的可能性包含真值,再加上模糊的感觉认为这就是一个置信决策的基础。根据应用的不同,合理的阈值水平也是不同的。而且,正如抗炎药那个例子那样,当区间估计施加的二分法被视为一种科学标准时,区间估计也可具有统计显著性的问题。

最后,也是最重要的一点:要谦虚。相容性评估取决于用于计算区间的统计假设的正确性。在实践中,这些假设最多只服从应考虑的不确定性。使这些假设尽可能地清楚以及测试你能够测试的假设,比如通过绘制你的数据图表和拟合替代模型,然后报告所有结果。

不管统计数据表明了什么,都可以提出你的结果的原因,但要讨论一系列潜在的解释,而不只是你最偏好的解释。推理应该科学,这远不仅仅是统计学。背景证据、研究设计、数据质量和底层机制的理解等因素往往比P 值和区间等统计度量更加重要。

对于反对放弃统计显著性的意见,我们听到最多的是:是非决策(yes-or-no decision)需要它。但对于监管、政策和商业环境所需的选择,基于决策的成本、利益和所有潜在后果可能性总是优先于单独基于统计显著性得到的结论。此外,对于是否进一步继续一个研究思路的决定,P 值和后续研究的可能结果之间也并不存在简单的联系。

放弃统计显著性后又会怎样?我们希望方法部分和数据列表将会更加详细和细致。研究者会强调他们的估计结果以及其中的不确定性——比如通过明确地讨论它们的区间的下限和上限。他们将不再依赖显著性测试。当报告 P 值时,他们会给出合理的精度(比如  P = 0.021 或 P = 0.13)——而不会用星号或字母等符号标示统计显著性,也不会以二元不等式的形式(P  < 0.05 或 P > 0.05)给出。解读或发表结果的决定将不再基于统计阈值。人们花在统计软件上的时间将会更少,而把更多时间用于思考。

我们呼吁让统计显著性退休,并将置信区间作为相容区间使用;但这并不能包治百病。尽管这确实能消除很多糟糕的做法,但却也可能引入新的问题。因此,监控文献中滥用统计的情况应当是科学界一个持续的优先事项。但完全根除非此即彼的分类将有助于制止信心过度的断言、对「无差异」的没有保证的声明、以及当原始结果和复现结果高度相容时得到「复现失败」结论的荒唐结果。滥用统计显著性已经给科学界和那些带来了很大的伤害。P 值、区间和其它统计度量全都有自己的位置,但现在已到放弃统计显著性的时候了。



原文链接:https://www.nature.com/articles/d41586-019-00857-9

产业统计学Nature
3
暂无评论
暂无评论~