统计学的假设检验中[1][2],显著性差异(或统计学意义,英语:statistical significance)是对数据差异性的评价,当某次实验的结果在零假设下不大可能发生时,就认为该结果具有显著性差异。更准确而言,譬如某项研究设定了一个数值α(显著性水平),表示零假设本来正确但却被拒绝的出错概率[3](并非零假设为真的概率、备择假设为假的概率、实验再现失败率[4]),然后用p值表示零假设条件为真时得到某结果或更极端结果的概率[5]。当p ⩽ α时,就可以认为结果具有统计学意义,或数据之间具有了显著性差异。[6][7][8][9][10][11][12]显著性水平应当在开始数据收集前就设定,通常习惯设定为5%[13]或更低,因研究的具体学科领域而异。[14]
在任何涉及到从总体中抽取样本的实验或观察性研究中,观察到的结果都有可能只不过是由抽样误差产生的。[15][16]但是,如果一个观察结果的p值小于(或等于)显著性水平α,研究者就可以得出“该结果能反映总体的特征”的结论[1],并拒绝零假设[17]。
显著性差异的原因可能是:
- 参与比对的数据是来自不同实验对象,如比-西一般能力测验中,大学学历被试组的成绩与小学学历被试组之间,会存在显著性差异;
- 也可能是因为实验处理对实验对象造成了改变,因而前测、后测的数据会有显著性差异。例如,记忆术研究发现,被试者学习某记忆法前的成绩,和学习记忆法后的记忆成绩会有显著性差异,则这一差异很可能来自于这种记忆法对被试记忆能力的改变。
历史
显著性差异的提出可追溯到18世纪,约翰·阿巴思诺特和皮埃尔-西蒙·拉普拉斯作出了男女出生概率均等的零假设,然后计算了人类出生时性别比的p值。[18][19][20][21][22][23][24]
1925年,罗纳德·费希尔在《研究工作者的统计方法》一书中提出了统计假设检验的思想,称之为“显著性检验”(tests of significance)。[25][26][27]费希尔建议将1/20(=0.05)的概率作为拒绝零假设的一个截断值。[28]在1933年的一篇论文中,耶日·内曼和埃贡·皮尔逊把这个截断值称为“显著性水平”,并赋予它符号α。他们建议,α值应当在收集任何数据收集之前提前设定。[28][29]
费希尔最初将显著性水平定为0.05,但他并不打算将这一截断值定死。在他1956年出版的《统计方法与科学推断》一书中,他建议根据具体情况确定显著性水平。[28]
显著性水平α是p值的阈值,当p ⩽ α时就拒绝零假设(即使零假设仍有可能是正确的)。这意味着α也是在零假设正确的情况下错误地将其否定的概率[3],称为伪阳性或第一类错误、弃真错误、α错误。
而有些研究者偏好使用置信水平γ = 1 − α。它是零假设成立时不拒绝零假设的概率。[30][31]置信水平和置信区间是Neyman于1937年提出的。[32]
显著性水平
显著性水平(significance level,符号:α)常用于假设检验中检验假设和实验结果是否一致,它代表在零假设(记作)为真时,错误地拒绝的概率,即发生第一类错误(弃真错误、α错误)的概率。
比如,我们从两个总体中分别抽取了两组样本数据A和B,这两组数据在显著性水平α = 0.05下具备显著性差异。这是说,两组数据所代表的总体具备显著性差异的可能性为95%;但它们代表的总体仍有5%的可能性是没有显著性差异的,这5%是由于抽样误差造成的。也可表述为:
- 如果拒绝“两组数据一致(二者不具备显著性差异)”的零假设(接受“两组数据不一致”的备择假设),此时有5%的可能性犯第一类错误;
- 如果A=两组数据不具备显著差异;B=实际数据具有显著差异,则P(A|B) = 0.05,即统计100次,预期是B情况,但可能出现5次的A情况。
当假设检验所测得之数据之间具有显著性差异,实验的零假设就可被推翻,也就是拒绝,接受备择假设(alternative hypothesis,记作或);反之,若数据之间不具备显著性差异,则拒绝备择假设,不拒绝零假设。通常情况下,实验结果需要证明达到显著性水平α = 0.05或0.01,才可以说数据之间具备了显著性差异,否则就如上所述,容易作出错误的推论。在作结论时,应确实描述方向性(例如显著大于或显著小于)。
数学表述为:引入p值作为检验样本(test statistic)观察值的最低显著性水平。在α = 0.01或α = 0.05的条件下,若零假设成立的概率(p)小于α,则表示零假设成立的情况下得到这种观测结果的概率,比1%或5%还低,在该显著性水平下,我们可拒绝该零假设。
P(X=x)<α=0.05
为“显著(significant)”,统计分析软件SPSS中以*
标记;P(X=x)<α=0.01
为“极显著(extremely significant)”,通常以**
标记。
局限性
研究人员常常只关注他们的结果是否具有统计学意义,但其报告的结果可能并没有实质性[33],或者研究结果无法重现[34][35]。统计学意义与实际意义之间也不能等同,有统计学意义的研究未必就有实际意义。[36][37]
效应值是衡量一项研究的实际意义。[36]统计上显著的结果可能效应量很低。为了衡量结果的研究意义,研究人员最好同时给出效应值和p值。效应量量化了效应的强度,例如以标准差为单位的两个平均值之间的距离(Cohen's d)、两个变量之间的相关系数或其平方,以及其他度量。[38]
统计上显著的结果未必能够轻易重现。[35]特别是一些有显著性差异的结果实际上是假阳性。重现结果每失败一次,都意味着研究结果实际上为假阳性的可能性增加。[39]
参见
参考文献
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.