辛普森悖論(英語:Simpson's paradox),是概率統計中的一種現象,其中趨勢出現在幾組數據中,但當這些組被合併後趨勢消失或反轉。 這個結果在社會科學和醫學科學統計中經常遇到[1][2][3], 當頻率數據被不恰當地給出因果解釋時尤其成問題[4]。當干擾變數和因果關係在統計建模中得到適當處理時,這個悖論就可以得到解決[4][5]。 辛普森悖論已被用來說明統計誤用可能產生的誤導性結果[6][7]

定量數據的辛普森悖論:兩個獨立的小組出現正的趨勢( ,  ),而當小組合併時出現負的趨勢( )。
辛普森悖論在類似於現實世界變異性的數據上的可視化表明,誤判真實關係的風險可能難以發現。

該現象於20世紀初就有人討論,但一直到1951年,愛德華·H·辛普森在他發表的論文中闡述此一現象後,該現象才算正式被描述解釋。後來就以他的名字命名此悖論,即辛普森悖論。此悖論的最終原因和選擇偏差英語selection bias倖存者偏差、以及柏克森悖論英語Berkson's paradox一樣,是源自對撞因子(存疑!應為混淆變數(confounder))。

舉例

一所美國高校的兩個學院,分別是法學院和商學院。新學期招生,人們懷疑這兩個學院有性別歧視。現作如下統計:

法學院

More information 錄取, 拒收 ...
性別 錄取 拒收 總數 錄取比例
男生 8 45 53 15.1%
女生 51 101 152 33.6%
合計 59 146 205
Close

商學院

More information 錄取, 拒收 ...
性別 錄取 拒收 總數 錄取比例
男生 201 50 251 80.1%
女生 92 9 101 91.1%
合計 293 59 352
Close

根據上面兩個表格來看,女生在兩個學院都被優先錄取,即女生的錄取比率較。現在將兩學院的數據匯總:

More information 錄取, 拒收 ...
性別 錄取 拒收 總數 錄取比例
男生 209 95 304 68.8%
女生 143 110 253 56.5%
合計 352 205 557
Close

在總評中,女生的錄取比率反而比男生

女生單獨兩個向量斜率都比男生大,說明它們的比率都比較高。但最後男生總體向量斜率卻大於女生

藉助一幅向量圖可以更好的了解情況(右圖)

這個例子說明,簡單的將分組數據相加匯總,是不能反映真實情況的。

就上述例子說,導致辛普森悖論有兩個前提。

  1. 兩個分組的錄取率相差很大,就是說法學院錄取率很低,而商學院卻很高。而同時兩種性別的申請者分佈比重相反。女性申請者的大部分分佈在法學院,相反,男性申請者大部分分佈於商學院。結果在數量上來說,拒收率高的法學院拒收了很多的女生,男生雖然有更拒收率,但被拒收的數量卻相對不算多。而錄取率很高的商學院錄取了很多男生,使得最後匯總的時候,男生在數量上反而佔優。
  2. 潛在因素影響着錄取情況。就是說,性別並非是錄取率高低的唯一因素,甚至可能是毫無影響的。至於在學院中出現的比率差,可能是隨機事件。又或者是其他因素作用,比如入學成績,卻剛好出現這種錄取比例,使人誤認為這是由性別差異而造成的。

為了避免辛普森悖論的出現,就需要斟酌各分組的權重,並乘以一定的系數去消除以分組數據基數差異而造成的影響。同時,我們必需清楚了解情況,以綜合考慮是否存在造成此悖論的潛在因素。

相關條目

參考文獻

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.