统计学假设检验[1][2]显著性差异(或统计学意义,英语:statistical significance)是对数据差异性的评价,当某次实验的结果在零假设下不大可能发生时,就认为该结果具有显著性差异。更准确而言,譬如某项研究设定了一个数值α(显著性水平),表示零假设本来正确但却被拒绝的出错概率[3]并非零假设为真的概率、备择假设为假的概率、实验再现失败率[4]),然后用p值表示零假设条件为真时得到某结果或更极端结果的概率[5]。当pα时,就可以认为结果具有统计学意义,或数据之间具有了显著性差异。[6][7][8][9][10][11][12]显著性水平应当在开始数据收集前就设定,通常习惯设定为5%[13]或更低,因研究的具体学科领域而异。[14]

Thumb
双尾检验英语one- and two-tailed tests中,显著性水平α = 0.05下的拒绝域分处在抽样分布两端的尾部,共占曲线下方面积的5%。

在任何涉及到从总体抽取样本实验观察性研究中,观察到的结果都有可能只不过是由抽样误差英语sampling error产生的。[15][16]但是,如果一个观察结果的p值小于(或等于)显著性水平α,研究者就可以得出“该结果能反映总体的特征”的结论[1],并拒绝零假设[17]

显著性差异的原因可能是:

  • 参与比对的数据是来自不同实验对象,如比-西一般能力测验中,大学学历被试组的成绩与小学学历被试组之间,会存在显著性差异;
  • 也可能是因为实验处理对实验对象造成了改变,因而前测、后测的数据会有显著性差异。例如,记忆术研究发现,被试者学习某记忆法前的成绩,和学习记忆法后的记忆成绩会有显著性差异,则这一差异很可能来自于这种记忆法对被试记忆能力的改变。

历史

显著性差异的提出可追溯到18世纪,约翰·阿巴思诺特英语John Arbuthnot皮埃尔-西蒙·拉普拉斯作出了男女出生概率均等的零假设,然后计算了人类出生时性别比p值[18][19][20][21][22][23][24]

1925年,罗纳德·费希尔在《研究工作者的统计方法英语Statistical Methods for Research Workers》一书中提出了统计假设检验的思想,称之为“显著性检验”(tests of significance)。[25][26][27]费希尔建议将1/20(=0.05)的概率作为拒绝零假设的一个截断值。[28]在1933年的一篇论文中,耶日·内曼埃贡·皮尔逊把这个截断值称为“显著性水平”,并赋予它符号α。他们建议,α值应当在收集任何数据收集之前提前设定。[28][29]

费希尔最初将显著性水平定为0.05,但他并不打算将这一截断值定死。在他1956年出版的《统计方法与科学推断》一书中,他建议根据具体情况确定显著性水平。[28]

相关概念

显著性水平αp值的阈值,当pα时就拒绝零假设(即使零假设仍有可能是正确的)。这意味着α也是在零假设正确的情况下错误地将其否定的概率[3],称为伪阳性第一类错误、弃真错误、α错误。

而有些研究者偏好使用置信水平γ = 1 − α。它是零假设成立时不拒绝零假设的概率。[30][31]置信水平和置信区间是Neyman于1937年提出的。[32]

显著性水平

显著性水平significance level,符号:α)常用于假设检验中检验假设和实验结果是否一致,它代表在零假设(记作)为真时,错误地拒绝的概率,即发生第一类错误(弃真错误、α错误)的概率。

比如,我们从两个总体中分别抽取了两组样本数据A和B,这两组数据在显著性水平α = 0.05下具备显著性差异。这是说,两组数据所代表的总体具备显著性差异的可能性为95%;但它们代表的总体仍有5%的可能性是没有显著性差异的,这5%是由于抽样误差英语sampling error造成的。也可表述为:

  • 如果拒绝“两组数据一致(二者不具备显著性差异)”的零假设(接受“两组数据不一致”的备择假设),此时有5%的可能性犯第一类错误
  • 如果A=两组数据不具备显著差异;B=实际数据具有显著差异,则P(A|B) = 0.05,即统计100次,预期是B情况,但可能出现5次的A情况。

假设检验所测得之数据之间具有显著性差异,实验的零假设就可被推翻,也就是拒绝,接受备择假设(alternative hypothesis,记作);反之,若数据之间不具备显著性差异,则拒绝备择假设,不拒绝零假设。通常情况下,实验结果需要证明达到显著性水平α = 0.050.01,才可以说数据之间具备了显著性差异,否则就如上所述,容易作出错误的推论。在作结论时,应确实描述方向性(例如显著大于或显著小于)。

数学表述为:引入p值作为检验样本(test statistic)观察值的最低显著性水平。在α = 0.01α = 0.05的条件下,若零假设成立的概率p)小于α,则表示零假设成立的情况下得到这种观测结果的概率,比1%或5%还低,在该显著性水平下,我们可拒绝该零假设。

  • P(X=x)<α=0.05为“显著(significant)”,统计分析软件SPSS中以*标记;
  • P(X=x)<α=0.01为“极显著(extremely significant)”,通常以**标记。

局限性

研究人员常常只关注他们的结果是否具有统计学意义,但其报告的结果可能并没有实质性[33],或者研究结果无法重现英语Reproducibility[34][35]。统计学意义与实际意义之间也不能等同,有统计学意义的研究未必就有实际意义。[36][37]

效应值

效应值是衡量一项研究的实际意义。[36]统计上显著的结果可能效应量很低。为了衡量结果的研究意义,研究人员最好同时给出效应值和p值。效应量量化了效应的强度,例如以标准差为单位的两个平均值之间的距离(Cohen's d)、两个变量之间的相关系数其平方,以及其他度量。[38]

再现性

统计上显著的结果未必能够轻易重现英语Reproducibility[35]特别是一些有显著性差异的结果实际上是假阳性。重现结果每失败一次,都意味着研究结果实际上为假阳性的可能性增加。[39]

参见

参考文献

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.