显著性差异

统计学的假设检验中^[1]^[2]，显著性差异（或统计学意义，英语：statistical significance）是对数据差异性的评价，当某次实验的结果在零假设下不大可能发生时，就认为该结果具有显著性差异。更准确而言，譬如某项研究设定了一个数值α（显著性水平），表示零假设本来正确但却被拒绝的出错概率^[3]（并非零假设为真的概率、备择假设为假的概率、实验再现失败率^[4]），然后用p值表示零假设条件为真时得到某结果或更极端结果的概率^[5]。当 $p ⩽ α$ 时，就可以认为结果具有统计学意义，或数据之间具有了显著性差异。^[6]^[7]^[8]^[9]^[10]^[11]^[12]显著性水平应当在开始数据收集前就设定，通常习惯设定为5%^[13]或更低，因研究的具体学科领域而异。^[14]

Thumb image — 在双尾检验（英语：one- and two-tailed tests）中，显著性水平 $α = 0.05$ 下的拒绝域分处在抽样分布两端的尾部，共占曲线下方面积的5%。

在任何涉及到从总体中抽取样本的实验或观察性研究中，观察到的结果都有可能只不过是由抽样误差（英语：sampling error）产生的。^[15]^[16]但是，如果一个观察结果的p值小于（或等于）显著性水平α，研究者就可以得出“该结果能反映总体的特征”的结论^[1]，并拒绝零假设^[17]。

显著性差异的原因可能是：

参与比对的数据是来自不同实验对象，如比－西一般能力测验中，大学学历被试组的成绩与小学学历被试组之间，会存在显著性差异；
也可能是因为实验处理对实验对象造成了改变，因而前测、后测的数据会有显著性差异。例如，记忆术研究发现，被试者学习某记忆法前的成绩，和学习记忆法后的记忆成绩会有显著性差异，则这一差异很可能来自于这种记忆法对被试记忆能力的改变。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]