統計学的有意(とうけいがくてきゆうい、英: statistical significance)は、確率論・統計学の用語で、「確率的に偶然とは考えにくく、意味があると考えられる」[1]ことを指す。科学分野での用語として、有意である(significant)とは「注目に値するほど大きい、ないしは重要である」という意味も持つ[2]。
P値とP値に関する問題
帰無仮説の下で実際にデータから計算された統計量よりも極端な(仮説に反する)統計量が観測される確率をP値という。通常、P値と有意水準αを比べることで帰無仮説を棄却するかどうかの判断を下す。この際に、いつ実験(観察)を停止するのかというルールをストッピング・ルール(停止規則)と呼ぶ。異なるストッピング・ルールを用いることで同じ観測データから異なるP値が生じ、帰無仮説の棄却判断に影響を及ぼすことが知られている[3][信頼性要検証][要ページ番号]。つまり全く同じ観測データであってもストッピング・ルールにより、有意となったり、優位でなくなったりすることになる[3][信頼性要検証][要ページ番号]。これはデータ・ドレッジング(Pハッキング)の一つである[3][信頼性要検証][要ページ番号]。P値の利用に伴う諸問題を考慮した社会心理学系のジャーナル、Basic and Applied Social Psychology(BASP)は、帰無仮説有意性検定およびそれに類する統計学的処理を禁止すると発表した[4]。
有意水準と有意水準に関する問題
有意水準α (0<α<1) は、どの程度の正確さをもって帰無仮説を棄却するかを表す定数である。有意水準αの仮説検定は、の時にを棄却する。このとき、「統計量はα水準で有意である」という。有意水準αは仮説が正しいにもかかわらず仮説検定で棄却してしまう確率(第一種過誤を犯す確率)に等しい。日本工業規格では、「第一種の誤りの確率の上限値」と定義している[5] 。
有意水準の値としては、0.05 (5%) を用いるのが一般的であるが、そのとり方は学問・調査・研究対象によっても違いがあり、社会科学などでは0.1(10%)を用いる場合もあり、厳密さが求められる自然科学では0.01(1%)などを用いる場合もある。また、データ表示に当たっては有意性に段階をつけて複数の有意水準を同時に用いることもあり、たとえば0.05水準で有意ならば * 、0.01水準と0.001水準に対してはそれぞれ ** 、 *** と表示する。
有意であるからといって「偶然ではない」と断定できるわけではなく、「偶然とは考えにくい」という意味に過ぎない。したがって、たとえば有意水準5%で有意という場合には、「実際には偶然に過ぎないのに、誤って『意味がある』と判断している」可能性が多くて5%ある。
逆に、の場合は、「有意差があるとはいえない」とまでしかならない[6]。
有意水準に対する批判
2010年代初頭に入ると科学は「再現性の危機」に苦しんでいて、研究者も助成機関も出版社も、学術文献は信頼できない結果にまみれているのではないかと不安を募らせている。2017年に72人の著名な研究者が、新たな発見をしたと主張する際の証拠の統計的基準の低さが再現性の危機の一因になっているとする論文を発表した。新発見の統計的有意性を評価するために、科学者が好んで用いる有意水準の値は0.05から0.005に引き下げるべきであると、統計学の大家たちは主張する。
その一方、イリノイ工科大学の計算機科学者Shlomo Argamonは「実験する方法が多数ある限り、どんなに小さい有意水準の値を用いてもその中に一つの実験方法が偶然に有意になる可能性が極めて高い」と新しい方法論的な基準を求める。実際小さい有意水準の値を用いたらお蔵入り問題がより著しくなり、多数の論文が出版できなくなる[7]。
2016年にはこの問題について、アメリカ統計協会が声明を発表[8]し、「どんなに小さい効果でも、サンプルサイズが大きかったり測定精度が十分高ければ小さいP値となりうる」「P値は仮説やその計算の背後にある仮定に基づいたデータについての記述であり、仮説や背後にある仮定自身についての記述ではない」など、P値についての基本的な問題点を整理し、「P値は、それだけでは統計モデルや仮説に関するエビデンスの、よい指標とはならない」ことを強調している。
2019年には科学者800人超が、『ネイチャー』に署名し、P値が有意水準より大きい場合、「有意差があるとはいえない」とまでしかならないが、誤って「有意差がない=薬などの効果がない」と推論する文献は791文献中の51%に見当たったということで、「統計的有意性」を使うのをやめて信頼区間を互換区間という言葉に言い換えて使用すべきだとされた[6]。
多重比較
同種の検定を繰り返して全体での有意性の有無を判断する場合(多重比較)、1回の検定に対する有意水準をαとすると、k回の同様の試行に対して一度でも有意な結果を得る確率 はk回の試行の独立性に依存する。たとえば、k回の試行が独立であるときは、 となる。しかしながら、 の上限はkαであることから、1回の検定に対する有意水準をα/kと定めれば、k回の同様の試行に対して有意水準が高々αの検定を行うことができる。これをボンフェローニ補正という。ただし、この方法ではkの値が大きくなるにつれて有意水準が下がり、実用性に乏しくなる。そのため、より検定力の高い手法が提案されている。古くはLSD法が、ボンフェローニ法と共に計算が容易であるため好まれた。今日では、テューキーの範囲検定やRyan法が最も一般的である。また、シェッフェの方法やWSD法も見かけるようになっている。これらは、分散分析で3水準以上の要因の主効果が有意であった場合の下位検定にも用いられる。
有意差
帰無仮説を「2つの母数に差がない」という形にした場合には、帰無仮説が棄却されることで「2つの母数の間には有意差がある」という結論が導かれる。
信頼区間と仮説検定
統計量Xが、ある母数θの推定量である場合を考える。このとき、有意水準αで帰無仮説が棄却されないようなXのとりうる範囲は、信頼水準に対するθの信頼区間と等しい。
たとえば、標本平均Xを母平均θの推定量とみなすと、帰無仮説:が有意水準5%で棄却されないXの範囲は、の95%信頼区間と一致する。
脚注
参考文献
関連項目
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.