統計學假設檢定[1][2]顯著性差異(或統計學意義,英語:statistical significance)是對數據差異性的評價,當某次實驗的結果在虛無假設下不大可能發生時,就認為該結果具有顯著性差異。更準確而言,譬如某項研究設定了一個數值α(顯著水平),表示虛無假設本來正確但卻被拒絕的出錯概率[3]並非虛無假設為真的概率、對立假設為假的概率、實驗再現失敗率[4]),然後用p值表示虛無假設條件為真時得到某結果或更極端結果的概率[5]。當pα時,就可以認為結果具有統計學意義,或數據之間具有了顯著性差異。[6][7][8][9][10][11][12]顯著水平應當在開始數據收集前就設定,通常習慣設定為5%[13]或更低,因研究的具體學科領域而異。[14]

Thumb
雙尾檢定英語one- and two-tailed tests中,顯著水平α = 0.05下的拒絕域分處在抽樣分佈兩端的尾部,共占曲線下方面積的5%。

在任何涉及到從總體抽取樣本實驗觀察性研究中,觀察到的結果都有可能只不過是由抽樣誤差英語sampling error產生的。[15][16]但是,如果一個觀察結果的p值小於(或等於)顯著水平α,研究者就可以得出「該結果能反映總體的特徵」的結論[1],並拒絕虛無假設[17]

顯著性差異的原因可能是:

  • 參與比對的數據是來自不同實驗對象,如比-西一般能力測驗中,大學學歷被試組的成績與小學學歷被試組之間,會存在顯著性差異;
  • 也可能是因為實驗處理對實驗對象造成了改變,因而前測、後測的數據會有顯著性差異。例如,記憶術研究發現,被試者學習某記憶法前的成績,和學習記憶法後的記憶成績會有顯著性差異,則這一差異很可能來自於這種記憶法對被試記憶能力的改變。

歷史

顯著性差異的提出可追溯到18世紀,約翰·阿巴思諾特英語John Arbuthnot皮埃爾-西蒙·拉普拉斯作出了男女出生概率均等的虛無假設,然後計算了人類出生時性別比p值[18][19][20][21][22][23][24]

1925年,羅納德·費雪在《研究工作者的統計方法英語Statistical Methods for Research Workers》一書中提出了統計假設檢定的思想,稱之為「顯著性檢定」(tests of significance)。[25][26][27]費雪建議將1/20(=0.05)的概率作為拒絕虛無假設的一個截斷值。[28]在1933年的一篇論文中,耶日·內曼埃貢·皮爾森把這個截斷值稱為「顯著水平」,並賦予它符號α。他們建議,α值應當在收集任何數據收集之前提前設定。[28][29]

費雪最初將顯著水平定為0.05,但他並不打算將這一截斷值定死。在他1956年出版的《統計方法與科學推斷》一書中,他建議根據具體情況確定顯著水平。[28]

相關概念

顯著水平αp值的閾值,當pα時就拒絕虛無假設(即使虛無假設仍有可能是正確的)。這意味着α也是在虛無假設正確的情況下錯誤地將其否定的概率[3],稱為偽陽性第一型錯誤、棄真錯誤、α錯誤。

而有些研究者偏好使用置信水平γ = 1 − α。它是虛無假設成立時不拒絕虛無假設的概率。[30][31]置信水平和置信區間是Neyman於1937年提出的。[32]

顯著水平

顯著水平significance level,符號:α)常用於假設檢定中檢定假設和實驗結果是否一致,它代表在虛無假設(記作)為真時,錯誤地拒絕的概率,即發生第一型錯誤(棄真錯誤、α錯誤)的概率。

比如,我們從兩個總體中分別抽取了兩組樣本數據A和B,這兩組數據在顯著水平α = 0.05下具備顯著性差異。這是說,兩組數據所代表的總體具備顯著性差異的可能性為95%;但它們代表的總體仍有5%的可能性是沒有顯著性差異的,這5%是由於抽樣誤差英語sampling error造成的。也可表述為:

  • 如果拒絕「兩組數據一致(二者不具備顯著性差異)」的虛無假設(接受「兩組數據不一致」的對立假設),此時有5%的可能性犯第一型錯誤
  • 如果A=兩組數據不具備顯著差異;B=實際數據具有顯著差異,則P(A|B) = 0.05,即統計100次,預期是B情況,但可能出現5次的A情況。

假設檢定所測得之數據之間具有顯著性差異,實驗的虛無假設就可被推翻,也就是拒絕,接受對立假設(alternative hypothesis,記作);反之,若數據之間不具備顯著性差異,則拒絕對立假設,不拒絕虛無假設。通常情況下,實驗結果需要證明達到顯著水平α = 0.050.01,才可以說數據之間具備了顯著性差異,否則就如上所述,容易作出錯誤的推論。在作結論時,應確實描述方向性(例如顯著大於或顯著小於)。

數學表述為:引入p值作為檢定樣本(test statistic)觀察值的最低顯著水平。在α = 0.01α = 0.05的條件下,若虛無假設成立的概率p)小於α,則表示虛無假設成立的情況下得到這種觀測結果的概率,比1%或5%還低,在該顯著水平下,我們可拒絕該虛無假設。

  • P(X=x)<α=0.05為「顯著(significant)」,統計分析軟件SPSS中以*標記;
  • P(X=x)<α=0.01為「極顯著(extremely significant)」,通常以**標記。

局限性

研究人員常常只關注他們的結果是否具有統計學意義,但其報告的結果可能並沒有實質性[33],或者研究結果無法重現英語Reproducibility[34][35]。統計學意義與實際意義之間也不能等同,有統計學意義的研究未必就有實際意義。[36][37]

效應值

效應值是衡量一項研究的實際意義。[36]統計上顯著的結果可能效應量很低。為了衡量結果的研究意義,研究人員最好同時給出效應值和p值。效應量量化了效應的強度,例如以標準差為單位的兩個平均值之間的距離(Cohen's d)、兩個變量之間的相關係數其平方,以及其他度量。[38]

再現性

統計上顯著的結果未必能夠輕易重現英語Reproducibility[35]特別是一些有顯著性差異的結果實際上是假陽性。重現結果每失敗一次,都意味着研究結果實際上為假陽性的可能性增加。[39]

參見

參考文獻

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.