显著性差异

統計學名詞 来自维基百科,自由的百科全书

显著性差异

統計學假說檢定[1][2]顯著性差異(或统计学意义,英語:statistical significance)是對數據差異性的評價,當某次實驗的结果在虛無假說下不大可能发生时,就認為該結果具有顯著性差異。更準確而言,譬如某項研究設定了一個數值α(顯著水準),表示虛無假說本來正確但卻被拒絕的出錯概率[3]並非虛無假設為真的機率、對立假設為假的機率、實驗再現失敗率[4]),然後用p值表示虛無假說条件为真時得到某結果或更極端结果的概率[5]。當pα時,就可以認為結果具有統計學意義,或數據之間具有了顯著性差異。[6][7][8][9][10][11][12]顯著水準應當在開始數據收集前就設定,通常習慣設定為5%[13]或更低,因研究的具體學科領域而異。[14]

Thumb
双尾检验英语one- and two-tailed tests中,显著性水平α = 0.05下的拒绝域分处在抽样分布两端的尾部,共占曲线下方面积的5%。

在任何涉及到从总体抽取样本实验观察性研究中,观察到的结果都有可能只不过是由抽样误差产生的。[15][16]但是,如果一个观察结果的p值小于(或等于)显著性水平α,研究者就可以得出“该结果能反映总体的特征”的结论[1],并拒绝零假设[17]

顯著性差異的原因可能是:

  • 參與比對的數據是來自不同實驗對象,如比-西一般能力測驗中,大學學歷被試組的成績與小學學歷被試組之間,會存在顯著性差異;
  • 也可能是因為實驗處理對實驗對象造成了改變,因而前測、後測的數據會有顯著性差異。例如,記憶術研究發現,被試者學習某記憶法前的成績,和學習記憶法後的記憶成績會有顯著性差異,則這一差異很可能來自於這種記憶法對被試記憶能力的改變。

歷史

顯著性差異的提出可追溯到18世纪,约翰·阿布斯诺特皮埃尔-西蒙·拉普拉斯作出了男女出生概率均等的零假设,然后计算了人类出生时性别比p值[18][19][20][21][22][23][24]

1925年,羅納德·費雪在《研究工作者的统计方法英语Statistical Methods for Research Workers》一书中提出了统计假设检验的思想,称之为“显著性检验”(tests of significance)。[25][26][27]費雪建議将1/20(=0.05)的概率作为拒绝虛無假說的一个截断值。[28]在1933年的一篇论文中,耶日·内曼埃贡·皮尔逊把这个截断值称为“显著性水平”,並賦予它符號α。他们建议,α值應當在收集任何数据收集之前提前设定。[28][29]

費雪最初將显著性水平定為0.05,但他并不打算将这一截断值定死。在他1956年出版的《统计方法与科学推断》一书中,他建议根据具体情况确定显著性水平。[28]

相關概念

显著性水平αp值的阈值,當pα時就拒絕零假设(即使零假设仍有可能是正确的)。这意味着α也是在零假设正确的情况下错误地将其否定的概率[3],称为伪阳性型一錯誤、棄真錯誤、α錯誤。

而有些研究者偏好使用置信水平γ = 1 − α。它是零假设成立时不拒绝零假设的概率。[30][31]置信水平和置信区间是Neyman于1937年提出的。[32]

顯著水準

顯著水準significance level,符號:α)常用于假设检验中检验假设和实验结果是否一致,它代表在虛無假說(記作)為真時,錯誤地拒絕的機率,即發生型一錯誤(棄真錯誤、α錯誤)的機率。

比如,我們從兩個母體中分別抽取了兩組樣本數據A和B,這兩組數據在顯著水準α = 0.05下具備顯著性差異。這是說,兩組數據所代表的母體具備顯著性差異的可能性為95%;但它們代表的母體仍有5%的可能性是沒有顯著性差異的,這5%是由於抽样误差造成的。也可表述为:

  • 如果拒绝“两组数据一致(二者不具备显著性差异)”的零假设(接受“两组数据不一致”的备择假设),此时有5%的可能性犯第一类错误
  • 如果A=两组数据不具备显著差异;B=实际数据具有显著差异,則P(A|B) = 0.05,即統計100次,預期是B情況,但可能出現5次的A情況。

假說檢定所測得之數據之間具有顯著性差異,實驗的虛無假說就可被推翻,也就是拒絕,接受對立假說(alternative hypothesis,記作);反之,若數據之間不具備顯著性差異,則拒絕對立假說,不拒絕虛無假說。通常情況下,實驗結果需要證明達到顯著水準α = 0.050.01,才可以說數據之間具備了顯著性差異,否則就如上所述,容易作出錯誤的推論。在作結論時,應確實描述方向性(例如顯著大於或顯著小於)。

数学表述为:引入p值作为检验样本(test statistic)观察值的最低顯著水準。在α = 0.01α = 0.05的条件下,若零假设成立的概率p)小于α,则表示零假设成立的情况下得到这种观测结果的概率,比1%或5%還低,在该显著性水平下,我们可拒绝该零假设。

  • P(X=x)<α=0.05为“显著(significant)”,统计分析软件SPSS中以*标记;
  • P(X=x)<α=0.01为“极显著(extremely significant)”,通常以**标记。

局限性

研究人员常常只关注他们的结果是否具有统计学意义,但其报告的结果可能并没有实质性[33],或者研究结果无法重現英语Reproducibility[34][35]。统计学意义与实际意义之间也不能等同,有统计学意义的研究未必就有实际意义。[36][37]

效应值

效应值是衡量一项研究的实际意义。[36]统计上显著的结果可能效应量很低。为了衡量结果的研究意义,研究人员最好同时给出效应值和p值。效应量量化了效应的强度,例如以标准差为单位的两个平均值之间的距离(Cohen's d)、两个变量之间的相关系数其平方,以及其他度量。[38]

再现性

统计上显著的结果未必能够轻易重現英语Reproducibility[35]特别是一些有显著性差异的结果实际上是假阳性。重现结果每失败一次,都意味着研究结果实际上为假阳性的可能性增加。[39]

参见

参考文献

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.