第一種過誤(だいいっしゅかご、英: Type I error)と第二種過誤(だいにしゅかご、英: Type II error)は、仮説検定において過誤を表す統計学用語である。第一種過誤を偽陽性(ぎようせい、英: False positive[1])、α過誤(α error)、あわてものの誤り[2]ともいう。第二種過誤を偽陰性(ぎいんせい、英: False negative[3])、β過誤(β error)、ぼんやりものの誤り[2]ともいう。なお「過誤」とは、誤差によって二項分類などの分類を間違うことを意味する。
過誤は次の2種類がある[注釈 1]。
- 統計的過誤(Statistical error)
- 計算や計測で得られた値と真の理論上の値との誤差が、無作為で本質的に予測不可能な変動によって生じている場合[注釈 2]。
- 系統過誤(Systematic error)
- 計算や計測で得られた値と真の理論上の値との誤差が、未知のソースによる無作為でない影響であり(不確かさ参照)、そのソースが特定されれば排除できる[注釈 2]。
統計学において、証拠を無に帰するような「帰無仮説」を置いて検証を進める。帰無仮説の例には、「個人は病気ではない」とか、「被告人は無実である」とか、「潜在的なログイン対象が認可されていない」などが挙げられる。
一方で、帰無仮説と全く逆の状況に対応する「対立仮説」がある(こちらが証明したい事象に対応する)。すなわち、「個人が病気にかかっている」とか、「被告人が有罪である」とか、「ログイン対象が許可されたユーザである」といったことを表す。
目標は、偽である帰無仮説が棄却されて真である対立仮説が採用されることである。ある種のテスト(血液検査、裁判、ログイン試み)を実施し、データを得る。
テストの結果は、陰性かもしれない(つまり、病気でない、有罪でない、ログインが許されない)。一方、それは陽性かもしれない(つまり、病気、有罪、ログイン成功)。
テストの結果と実際の状態が一致していないなら過誤が発生したことになる。テストの結果と実際の状態が一致しているなら、判断は正しいことになる。どちらの仮説を誤って採用してしまったかによって、過誤を「第一種過誤」と「第二種過誤」に分類する。
第一種過誤
第一種過誤(α過誤、偽陽性)は、帰無仮説が実際には真であるのに棄却してしまう過誤である。つまり、偽がヒットすることによるエラーである。先ほどの例で言えば「個人は病気ではない」のにもかかわらず「個人が病気である」と判断してしまうことに相当する。
第二種過誤
第二種過誤(β過誤、偽陰性)は、対立仮説が実際には真であるのに帰無仮説を採択してしまう過誤である。つまり、真が抜け落ちることによるエラーである。対立仮説が正しい時に対立仮説を採択しない誤りのこと。先ほどの例で言えば「個人が病気である」のに「個人は病気でない」と判断してしまう事に相当する。
過誤の具体例
「真犯人を逮捕すること」を「帰無仮説を棄却すること」に例える。第一種過誤は「一般市民を冤罪で逮捕してしまうこと」である。第二種過誤は「真犯人を取り逃がすこと」を意味している。
刑事訴訟法336条で、「被告事件が罪とならないとき、又は被告事件について犯罪の証明がないときは、判決で無罪の言渡をしなければならない」と定めている。これは疑わしきは罰せずとも言う。第一種過誤を避けるような手法を採用することを推奨している[4]。他の分類については後述の過誤種別拡張の提案を参照されたい。
仮説検定は、2つの標本の分布の違いが無作為な偶然性で説明できるかどうかを判定する技法である。2つの分布に有意な差があると結論付ける場合、その差異が無作為な偶然性では説明できないことを十分注意して判断する必要がある。真ではない仮説を採用する可能性をなるべく小さくするよう注意を払わなければならない。一般に第一種過誤となる確率を .05 か .01 に設定する。これはつまり100例のうち5例か1例で過誤が発生することを意味する。これを「有意水準」と呼ぶ。100例のうち5例というのが十分かどうかは一概には言えないため、有意水準の選択には細心の注意が必要である。例えば、シックス・シグマの品質管理を採用する工場では標準偏差の6倍の幅(±6σ)を管理限界とする(これを外れるのは極めて珍しい)。
統計的手法の利点は無作為な標本抽出にある。つまり、2つの分布の差が治療の前後でどう変化するかを無作為抽出で追跡可能である。しかし、現実がそれほど単純でないのは明らかである。無作為標本を取り出したとき、全く同じ分布となる可能性は極めて小さい。たとえ同じ分布であったとしても、それが偶然の産物なのか、それとも常にそうなるのかは判断できない。
1928年、著名な統計学者のイェジ・ネイマン(1894年 - 1981年)とエゴン・ピアソン(1895年 - 1980年)は「特定の標本が、ある個体群から無作為に選ばれたと判断できるかどうかの判定」という問題を議論した[5]。そして、Davidは「'無作為な'という形容詞は標本の抽出方法に対するもので、標本そのものにかかるのではない」と指摘した[6]。
彼らは「過誤の2つの源泉」を次のように表した:
- (a) 採択すべき仮説を棄却する過誤
- (b) 棄却すべき仮説を採択する過誤[7]
1930年、彼らは「過誤の2つの源泉」の概念を次のように練り直した:
…仮説検定では次の2点を常に考慮しなければならない。 (1) 我々は、真の仮説を棄却してしまう可能性を必要に応じて低く抑えることができなければならない。 (2) 偽と思われる仮説が棄却されるような検定でなければならない。 [8]
1933年、彼らはこれらの「問題は、仮説の真偽が確信を持って断言できるような場合には存在しない」と述べた[9]。彼らはまた、「対立仮説群」[10]から特定の仮説を棄却または採用する決定において、過誤が容易に発生するとした。
…(そして)それらの過誤は以下の2種類に分けられる:
- (I) Ho(すなわち検定対象の仮説)が真であるのに棄却する。
- (II) 代替の仮説 Hi が真であるのに Ho を採択した[9]。
ネイマンとピアソンの共同執筆論文では、Ho が常に「検定対象仮説」を表[11]。添え字は "O" であってゼロではない(「オリジナル」の意)。
同じ論文[12]で、彼らは「2つの過誤の源泉」を第一種の過誤(errors of type I)および第二種の過誤(errors of type II)と呼んでいる[注釈 3]。
定義
第一種過誤と第二種過誤
ネイマンとピアソンによる過誤の定義は広く採用され、第一種過誤と第二種過誤として知られている。また、分かりやすさから、これらをそれぞれ偽陽性と偽陰性とも呼ぶことが多い。これらの用語は本来の定義から拡大解釈され、様々な場面で使われるようになっている。例えば、
- 第一種過誤(偽陽性): 受諾(受理)されるべき帰無仮説を拒絶(却下)する過誤。例えば、無実の人物を有罪にすること。
- 第二種過誤(偽陰性): 拒絶(却下)されるべき帰無仮説を受諾(受理)する過誤。例えば、真犯人を無罪にすること。
上の例は、この拡大された定義での曖昧さを示している。ここでは「無罪であること」を中心に考えているが、当然ながら「有罪であること」を中心に考えることもできる。以下の表で条件を示す。
|
実際の状態 |
有 |
無 |
テスト 結果 |
陽性 |
状態「有」 + 結果「陽性」 = 真陽性 (true positive, TP) |
状態「無」 + 結果「陽性」 = 偽陽性 (false positive, FP) 第一種過誤 |
陰性 |
状態「有」 + 結果「陰性」 = 偽陰性 (false negative, FN) 第二種過誤 |
状態「無」 + 結果「陰性」 = 真陰性 (true negative, TN) |
妊娠検査の例を示す。
|
実際の状態 |
妊娠している |
妊娠していない |
検査 結果 |
妊娠している |
真陽性 |
偽陽性 (妊娠しているという検査結果だが、 実際には妊娠していない) 第一種過誤 |
妊娠していない |
偽陰性 (妊娠しているのに 検出できなかった) 第二種過誤 |
真陰性 |
ここで、検査結果が「真」や「偽」といった場合、2種類の意味があることに注意する。実際の状態(条件)では、真 = 有(ある属性が有る)と、偽 = 無(ある属性が無い)であり、検査結果の正確性においては、真陽性/偽陽性/真陰性/偽陰性という使われ方をする。上の表ではこの混同を避けるため、状態については「有/無」で表している。
偽陽性率・第一種過誤
偽陽性率とは、陰性の標本集団のうち、誤って陽性と判定された標本の割合である。すなわち、1 から特異度を引いた値と同じである。
特異度が増大すると第一種過誤となる確率が低下するが、第二種過誤となる確率が増大する[注釈 4]。
偽陰性率・第二種過誤
偽陰性率とは、陽性の標本集団のうち、誤って陰性と判定された標本の割合である。すなわち、1 から感度を引いた値と同じである。
を検出力と呼ぶ。
ネイマンとピアソンが提唱した第一種過誤(偽陽性)と第二種過誤(偽陰性)は広く採用されているが、それら以外の過誤(「第三種過誤(英語版)」や「第四種過誤(英語版)」)を定義しようという試みがいくつかなされてきた[注釈 5]。
これらは広く受け入れられるには至っていない。以下では、主なものを紹介する。
David
ユニヴァーシティ・カレッジ・ロンドンでネイマンやピアソンと同僚だったこともあるフローレンス・ナイチンゲール・デヴィッド (1909年-1993年)[13]は、冗談交じりに 1947年の論文で、自身の研究結果についてネイマンとピアソンの「過誤の2種類の源泉」を三番目に拡張する可能性について触れている。
私は、この理論の基本的考え方を説明するにあたって、私が(第三種の)過誤に陥っているという批判、標本に対して間違った検査法を選んでいるという批判を受けるのではないかと心配してきた [14]。
Mosteller
1948年にフレデリック・モステラー(1916年 - 2006年)[注釈 6] は「第三種過誤」を次のように定義することを提唱した[15]。
- 第一種過誤: 真である帰無仮説を棄却する
- 第二種過誤: 偽である帰無仮説を採択する
- 第三種過誤: 間違った理由で、正しく帰無仮説を棄却する
Kaiser
ヘンリー・F・カイザー(1927年 - 1992年)は1966年の論文でMostellerの分類を拡張し、「第三種過誤」を棄却された仮説に基づいて間違った判断をすることを指すとした[16]。また、Kaiserはこれをγ過誤(γ errors)と呼んでいる。
Kimball
1957年、アライン・W・キンボール(オークリッジ国立研究所の統計学者)は、第一種過誤と第二種過誤に続く新たな種類の過誤を提案した。Kimballの定義した「第三種過誤」とは「間違った問題に正しい答を与えることによる過誤」である[17]。
数学者リチャード・ハミング(1915年 - 1998年)は「間違った問題に正しい解法を与えるよりも、正しい問題に間違った解法を与える方が望ましい」と述べている。
ハーバード大学の経済学者ハワード・ライファも「間違った問題を解く破目に陥った」経験を述べている[18][注釈 7]。
MitroffとFeatheringham
1974年、Ian MitroffとTom FeatheringhamはKimballの分類を拡張し、「問題の解法を考える際の最重要な要素は、その問題がまずどのように説明され、公式化されているかである」とした。
彼らは、第三種過誤を「正しい問題を解くべきときに間違った問題を解く過誤」あるいは「問題を正しく表現すべきときに間違った表現を選択する過誤」とした[19]。
Raiffa
1969年、ハーバード大学の経済学者Howard Raiffaは冗談として「第四種過誤の候補: 正しい問題を解くのに時間が掛かりすぎること」とした[20]。
MarascuiloとLevin
1970年、MarascuiloとLevinは第四種過誤を提案した。これはMosteller的な定義であり「正しく棄却された仮説の不適切な解釈」による過誤である。彼らは、この例として「医師の病気の診断が正しいのに、その後の医薬の処方箋が間違っている場合」を挙げている[21]。
統計的検定においては、以下の2つのトレードオフがある。
- (a) 偽陽性の容認可能なレベル
- (b) 偽陰性の容認可能なレベル
しきい値の設定によって、感度を変えることができる。感度を低くすれば真陽性のものを陰性と判定する危険が大きくなり、感度を高くすれば偽陽性を生む危険が大きくなる。
コンピュータ
コンピュータ関連では、「偽陽性」や「偽陰性」という言葉が様々な場面で使われている。
- コンピュータセキュリティ
- セキュリティ上の脆弱性は、適切なユーザーからのアクセスのみを受け付け、コンピュータのデータを安全に保つ際に考慮すべき重要な概念である(コンピュータセキュリティ参照)。Moulton (1983) では以下のよう点が強調されている(p.125)。
- 「認証されたユーザー」を「不正アクセス者」と分類してしまう第一種過誤(偽陽性)を防ぐ。
- 「不正アクセス者」を「認証されたユーザー」と分類してしまう第二種過誤(偽陰性)を防ぐ。
- スパムフィルタリング
- 「スパムフィルタリング」で通常の電子メールをスパムと誤って分類することを偽陽性と呼ぶ。この場合、普通の電子メールの配布が阻害される。スパムフィルタリングでは高確率で不要な電子メールをブロックできるが、偽陽性の発生を無視できる程度にまで低下させる努力は今も続いている。
- 逆にスパムを検出できずにそのまま通してしまうことを偽陰性と呼ぶ。偽陰性の発生率が低いほど、スパムフィルタリングの効率が良いとされる。
- マルウェア
- アンチウイルスソフトウェアでは、問題のないファイルをウイルスと誤認識することを偽陽性と呼ぶ。その原因はヒューリスティックやデータベース上のウイルスシグネチャの誤りによる。同様の問題はトロイの木馬やスパイウェアの検出でも発生する。
- データベース検索
- データベース検索では、検索要求に対して得られる適切でない結果を偽陽性と呼ぶ。特に全文検索で発生しやすい。全文検索は格納されている全文書の全内容について、ユーザーが指示した数個の単語が含まれているものを探す。
- 偽陽性の発生原因は自然言語の曖昧さにあることが多い。例えば「ホーム」という単語は「誰かの住居」という意味もあれば「あるWebサイトのトップレベルのページ」という意味もある[注釈 8]。
- 光学文字認識 (OCR)
- 一般に検出アルゴリズムは偽陽性に陥り易い。光学文字認識(OCR)ソフトウェアは "a" のように見えるドットの集まりを "a" であると認識してしまう可能性がある。
- 一般のセキュリティ
- 偽陽性は空港でのセキュリティチェックなどでよく発生している。警報は武器が持ち込まれようとしていると判定されたときに鳴るよう設計されているが、その感度は高めに設定されているため、実際には武器ではない場合でも、鍵やバックルや小銭や携帯電話などで頻繁にひっかかるようになっている(金属探知機参照)。
- この場合、真陽性(本物の武器を検出する場合)よりも偽陽性の場合が遥かに多く、陽性適中率は非常に低くなる。
- 生体認証
- 虹彩認識、網膜スキャン、顔認識システムなどの生体認証スキャンでは、偽陰性が問題となる。この種のシステムでは、ある人物がデータベース上の既知の人物と誤って一致することがある。この場合、その人物は通行を許可される人物と判断されるか、手配中の犯罪者と判断される可能性がある。
スクリーニング
医療において、「スクリーニング」と「臨床検査」には大きな違いがある。
- スクリーニング
- 比較的簡易な検査であり、多人数に対していっせいに行うことが多い。症状が現れていない人を対象にすることが多い。
- 臨床検査
- 比較的高価な検査であり、血液を採取するなどの手段が用いられることが多い。このため何らかの病気ではないかと疑われる患者に対して、それを確認するために行うことが多い。
例えば、米国の多くの州では、新生児に対してフェニルケトン尿症と甲状腺機能低下症のような先天性疾患のスクリーニングを行う。この場合、「偽陽性」の確率が非常に高いが、非常に早い段階でそれらの疾患を検出できるという利点がある[注釈 9]。
輸血の際にHIVや肝炎のスクリーニングを行うが、この場合も「偽陽性」の確率は高い。実際にそれらの病気にかかっているかの検査はもっと正確な結果が得られる。
スクリーニングで最も「偽陽性」が話題となるのは、マンモグラフィーによる乳癌の検査であろう。米国におけるマンモグラフィー検診での偽陽性率は 15% にもなっており、世界的に見ても非常に高い[注釈 10]。オランダでは偽陽性率が最も低く、1% である[注釈 11]。
臨床検査
妊娠検査薬、健康診断では「偽陰性」が大きな問題となる。「偽陰性」の場合、患者に対して本当は病気にかかっているのにかかっていないという誤ったメッセージを伝えてしまう。このため、その後の治療方針が誤った前提の下に立てられてしまう。例えば、冠動脈の動脈硬化症を検出する心臓ストレステストで偽陰性があることが知られている。
特に症状がありきたりの病気の場合に「偽陰性」は深刻な問題を生じる。集団の中の患者数が非常に少ない場合には「偽陽性」が問題となる。詳しくはベイズ推定を参照されたい。
超常現象の調査
偽陽性という用語は超常現象や心霊の調査において、誤って証拠として採用される写真などを意味する。つまり、証明されていないが霊などが写っているとされる媒体(画像、動画、音声録音など)を指す[22]。
注釈
ごまかしなどの他の意図的な誤りを除く。より網羅的な説明はAllchin (2001) を参照されたい。
観測値と予測値の誤差の大きさが観測値の大きさとは無関係である。
英語では、type I および type II という表記が普通であって、type-I や type-II、あるいは type 1 や type 2 とは書かない。
検出アルゴリズムや検査法を開発する際に、偽陽性と偽陰性のリスクのバランスを考えねばならない。通常、そのアルゴリズムが一致と判断する際の差分のしきい値がある。しきい値が高ければ、偽陰性が増え、偽陽性が減る。
例えば、Onwuegbuzie & Daniel (2003) では新たに8種類の過誤を定義している。
なお、ライファはこの回顧の中で「第三種過誤」を間違ってジョン・テューキー(1915年 - 2000年)の作った用語としている。
偽陽性の発生率は語彙を制限することで減らすことができる。しかし、この作業にはコストがかかる。語彙を決定するには専門家の作業が必要になり、各文書に適切なインデックスを付与するという作業も発生するからである。
このような新生児スクリーニングについて、通常のスクリーニングに比較して偽陽性となる確率が12倍という研究結果がある (Gambrill, 2006. )
偽陽性率が高いため、米国では10年間の間に受診した女性の半数が偽陽性の結果を受け取っている。このため、再検査などに毎年1億ドルかかっている。実際、陽性とされたうちの90%から95%が偽陽性であるという。
偽陽性率が低いのは、結果を2回チェックしているため。また、2回目ではしきい値を高く設定しており、検査の統計的検定力を低下させているとも言える。
出典
川出真清、2011、「仮説検定 望ましい仮説検定とは:第1種のエラーと第2種のエラー」、『コンパクト統計学』初版、8巻、新世社〈コンパクト経済学ライブラリ〉 ISBN 978-4-88384-156-1 p. 165
Neyman and Pearson, 1928/1967, p.1.
Neyman and Pearson, 1928/1967, p.31.
Neyman and Pearson, 1930/1967, p.100.
Neyman and Pearson, 1933/1967, p.187.
Neyman and Pearson, 1933, p.201.
例えば Neyman and Pearson, 1933/1967, p.186 参照
Neyman and Pearson, 1933/1967, p.190.
Kaiser, 1966, pp.162-163.
Raiffa, 1968, pp.264-265.
Mittoff and Featheringham, 1974, p.383.
Morascuilo and Levin, 1970, p.398.
- Allchin, D., "Error Types", Perspectives on Science, Vol.9, No.1, (Spring 2001), pp.38-58.
- Betz, M.A. & Gabriel, K.R., "Type IV Errors and Analysis of Simple Effects", Journal of Educational Statistics, Vol.3, No.2, (Summer 1978), pp.121-144.
- David, F.N., "A Power Function for Tests of Randomness in a Sequence of Alternatives", Biometrika, Vol.34, Nos.3/4, (December 1947), pp.335-339.
- David, F.N., Probability Theory for Statistical Methods, Cambridge University Press, (Cambridge), 1949.
- Fisher, R.A., The Design of Experiments, Oliver & Boyd (Edinburgh), 1935.
- Gambrill, W., "False Positives on Newborns' Disease Tests Worry Parents", Health Day, (5 June 2006).
- Kaiser, H.F., "Directional Statistical Decisions", Psychological Review, Vol.67, No.3, (May 1960), pp.160-167.
- Kimball, A.W., "Errors of the Third Kind in Statistical Consulting", Journal of the American Statistical Association, Vol.52, No.278, (June 1957), pp.133-142.
- Lubin, A., "The Interpretation of Significant Interaction", Educational and Psychological Measurement, Vol.21, No.4, (Winter 1961), pp.807-817.
- Marascuilo, L.A. & Levin, J.R., "Appropriate Post Hoc Comparisons for Interaction and nested Hypotheses in Analysis of Variance Designs: The Elimination of Type-IV Errors", American Educational Research Journal, Vol.7., No.3, (May 1970), pp.397-421.
- Mitroff, I.I. & Featheringham, T.R., "On Systemic Problem Solving and the Error of the Third Kind", Behavioral Science, Vol.19, No.6, (November 1974), pp.383-393.
- Mosteller, F., "A k-Sample Slippage Test for an Extreme Population", The Annals of Mathematical Statistics, Vol.19, No.1, (March 1948), pp.58-65.
- Moulton, R.T., “Network Security”, Datamation, Vol.29, No.7, (July 1983), pp.121-127.
- Neyman, J. & Pearson, E.S., "On the Use and Interpretation of Certain Test Criteria for Purposes of Statistical Inference, Part I", reprinted at pp.1-66 in Neyman, J. & Pearson, E.S., Joint Statistical Papers, Cambridge University Press, (Cambridge), 1967 (originally published in 1928).
- Neyman, J. & Pearson, E.S., "The testing of statistical hypotheses in relation to probabilities a priori", reprinted at pp.186-202 in Neyman, J. & Pearson, E.S., Joint Statistical Papers, Cambridge University Press, (Cambridge), 1967 (originally published in 1933).
- Onwuegbuzie, A.J. & Daniel, L. G. "Typology of Analytical and Interpretational Errors in Quantitative and Qualitative Educational Research", Current Issues in Education, Vol.6, No.2, (19 February 2003).
- Pearson, E.S. & Neyman, J., "On the Problem of Two Samples", reprinted at pp.99-115 in Neyman, J. & Pearson, E.S., Joint Statistical Papers, Cambridge University Press, (Cambridge), 1967 (originally published in 1930).
- Raiffa, H., Decision Analysis: Introductory Lectures on Choices Under Uncertainty, Addison-Wesley, (Reading), 1968.