Loading AI tools
数据统计悖论 来自维基百科,自由的百科全书
辛普森悖論(英語:Simpson's paradox),是機率和統計中的一種現象,其中趨勢出現在幾組數據中,但當這些組被合併後趨勢消失或反轉。 這個結果在社會科學和醫學科學統計中經常遇到[1][2][3], 當頻率數據被不恰當地給出因果解釋時尤其成問題[4]。當干擾變數和因果關係在統計建模中得到適當處理時,這個悖論就可以得到解決[4][5]。 辛普森悖論已被用來說明統計誤用可能產生的誤導性結果[6][7]。
此條目可參照英語維基百科相應條目來擴充。 (2020年4月25日) |
該現象於20世紀初就有人討論,但一直到1951年,愛德華·H·辛普森在他發表的論文中闡述此一現象後,該現象才算正式被描述解釋。後來就以他的名字命名此悖論,即辛普森悖論。此悖論的最終原因和選擇偏差、倖存者偏差、以及柏克森悖論一樣,是源自對撞因子(存疑!應為混淆變數(confounder))。
一所美國高校的兩個學院,分別是法學院和商學院。新學期招生,人們懷疑這兩個學院有性別歧視。現作如下統計:
法學院
性別 | 錄取 | 拒收 | 總數 | 錄取比例 |
---|---|---|---|---|
男生 | 8 | 45 | 53 | 15.1% |
女生 | 51 | 101 | 152 | 33.6% |
合計 | 59 | 146 | 205 |
商學院
性別 | 錄取 | 拒收 | 總數 | 錄取比例 |
---|---|---|---|---|
男生 | 201 | 50 | 251 | 80.1% |
女生 | 92 | 9 | 101 | 91.1% |
合計 | 293 | 59 | 352 |
根據上面兩個表格來看,女生在兩個學院都被優先錄取,即女生的錄取比率較高。現在將兩學院的數據匯總:
性別 | 錄取 | 拒收 | 總數 | 錄取比例 |
---|---|---|---|---|
男生 | 209 | 95 | 304 | 68.8% |
女生 | 143 | 110 | 253 | 56.5% |
合計 | 352 | 205 | 557 |
在總評中,女生的錄取比率反而比男生低。
藉助一幅向量圖可以更好的了解情況(右圖)
這個例子說明,簡單的將分組數據相加匯總,是不能反映真實情況的。
就上述例子說,導致辛普森悖論有兩個前提。
為了避免辛普森悖論的出現,就需要斟酌各分組的權重,並乘以一定的係數去消除以分組數據基數差異而造成的影響。同時,我們必需清楚了解情況,以綜合考慮是否存在造成此悖論的潛在因素。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.