显著性差异 - Wikiwand

统计学的假设检验中^[1]^[2]，显著性差异（或统计学意义，英语：statistical significance）是对数据差异性的评价，当某次实验的结果在零假设下不大可能发生时，就认为该结果具有显著性差异。更准确而言，譬如某项研究设定了一个数值α（显著性水平），表示零假设本来正确但却被拒绝的出错概率^[3]（并非零假设为真的概率、备择假设为假的概率、实验再现失败率^[4]），然后用p值表示零假设条件为真时得到某结果或更极端结果的概率^[5]。当 $p\leq \alpha$ 时，就可以认为结果具有统计学意义，或数据之间具有了显著性差异。^[6]^[7]^[8]^[9]^[10]^[11]^[12]显著性水平应当在开始数据收集前就设定，通常习惯设定为5%^[13]或更低，因研究的具体学科领域而异。^[14]

Thumb — 在双尾检验（英语：one- and two-tailed tests）中，显著性水平 $\alpha =0.05$ 下的拒绝域分处在抽样分布两端的尾部，共占曲线下方面积的5%。

在任何涉及到从总体中抽取样本的实验或观察性研究中，观察到的结果都有可能只不过是由抽样误差产生的。^[15]^[16]但是，如果一个观察结果的 $p$ 值小于（或等于）显著性水平 $\alpha$ ，研究者就可以得出“该结果能反映总体的特征”的结论^[1]，并拒绝零假设^[17]。

显著性差异的原因可能是：

参与比对的数据是来自不同实验对象，如比－西一般能力测验中，大学学历被试组的成绩与小学学历被试组之间，会存在显著性差异；
也可能是因为实验处理对实验对象造成了改变，因而前测、后测的数据会有显著性差异。例如，记忆术研究发现，被试者学习某记忆法前的成绩，和学习记忆法后的记忆成绩会有显著性差异，则这一差异很可能来自于这种记忆法对被试记忆能力的改变。

Remove ads

历史

显著性差异的提出可追溯到18世纪，约翰·阿布斯诺特和皮埃尔-西蒙·拉普拉斯作出了男女出生概率均等的零假设，然后计算了人类出生时性别比的p值。^[18]^[19]^[20]^[21]^[22]^[23]^[24]

1925年，罗纳德·费希尔在《研究工作者的统计方法（英语：Statistical Methods for Research Workers）》一书中提出了统计假设检验的思想，称之为“显著性检验”（tests of significance）。^[25]^[26]^[27]费希尔建议将1/20（=0.05）的概率作为拒绝零假设的一个截断值。^[28]在1933年的一篇论文中，耶日·内曼和埃贡·皮尔逊把这个截断值称为“显著性水平”，并赋予它符号 $\alpha$ 。他们建议， $\alpha$ 值应当在收集任何数据收集之前提前设定。^[28]^[29]

费希尔最初将显著性水平定为0.05，但他并不打算将这一截断值定死。在他1956年出版的《统计方法与科学推断》一书中，他建议根据具体情况确定显著性水平。^[28]

Remove ads

显著性水平

显著性水平（significance level，符号： $\alpha$ ）常用于假设检验中检验假设和实验结果是否一致，它代表在零假设（记作 $H_{0}$ ）为真时，错误地拒绝 $H_{0}$ 的概率，即发生第一类错误（弃真错误、 $\alpha$ 错误）的概率。

比如，我们从两个总体中分别抽取了两组样本数据A和B，这两组数据在显著性水平 $\alpha =0.05$ 下具备显著性差异。这是说，两组数据所代表的总体具备显著性差异的可能性为95%；但它们代表的总体仍有5%的可能性是没有显著性差异的，这5%是由于抽样误差造成的。也可表述为：

如果拒绝“两组数据一致（二者不具备显著性差异）”的零假设（接受“两组数据不一致”的备择假设），此时有5%的可能性犯第一类错误；
如果 $A=$ 两组数据不具备显著差异； $B=$ 实际数据具有显著差异，则 $P(A|B)=0.05$ ，即统计100次，预期是 $B$ 情况，但可能出现5次的 $A$ 情况。

当假设检验所测得之数据之间具有显著性差异，实验的零假设就可被推翻，也就是拒绝 $H_{0}$ ，接受备择假设（alternative hypothesis，记作 $H_{1}$ 或 $H_{a}$ ）；反之，若数据之间不具备显著性差异，则拒绝备择假设，不拒绝零假设。通常情况下，实验结果需要证明达到显著性水平 $\alpha =0.05$ 或 $0.01$ ，才可以说数据之间具备了显著性差异，否则就如上所述，容易作出错误的推论。在作结论时，应确实描述方向性（例如显著大于或显著小于）。

数学表述为：引入p值作为检验样本（test statistic）观察值的最低显著性水平。在 $\alpha =0.01$ 或 $\alpha =0.05$ 的条件下，若零假设成立的概率（ $p$ ）小于 $\alpha$ ，则表示零假设成立的情况下得到这种观测结果的概率，比1%或5%还低，在该显著性水平下，我们可拒绝该零假设。

P(X=x)<α=0.05为“显著（significant)”，统计分析软件SPSS中以*标记；
P(X=x)<α=0.01为“极显著（extremely significant）”，通常以**标记。

Remove ads

局限性

研究人员常常只关注他们的结果是否具有统计学意义，但其报告的结果可能并没有实质性^[33]，或者研究结果无法重现^[34]^[35]。统计学意义与实际意义之间也不能等同，有统计学意义的研究未必就有实际意义。^[36]^[37]

效应值

效应值是衡量一项研究的实际意义。^[36]统计上显著的结果可能效应量很低。为了衡量结果的研究意义，研究人员最好同时给出效应值和p值。效应量量化了效应的强度，例如以标准差为单位的两个平均值之间的距离（Cohen's d）、两个变量之间的相关系数或其平方，以及其他度量。^[38]

再现性

统计上显著的结果未必能够轻易重现。^[35]特别是一些有显著性差异的结果实际上是假阳性。重现结果每失败一次，都意味着研究结果实际上为假阳性的可能性增加。^[39]

参见

参考文献

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

历史

相关概念

显著性水平

局限性

效应值

再现性

参见

参考文献