再現性の危機

再現性の危機（さいげんせいのきき、英: replication crisis, replicability crisis）とは、多くの科学実験の結果が他の研究者やその実験を行った研究者自身による後続の調査において再現することが難しい、もしくはできないという科学における方法論的な危機のことである^[1]。この危機には長い歴史があるが、「再現性の危機」というフレーズそのものは2010年代初頭に注意を集める問題の一部として名づけられた。

実験の再現性は科学的方法論において欠かせない部分であるため、有意な理論が再現できない実験研究に基づいている科学の多くの領域において、研究の再現ができないことは潜在的に破滅的な結果をもたらす。

再現性の危機は特に心理学（社会心理学）と医学の領域で広く議論されてきた。これらの領域においては古典的な結果の再調査やその結果の妥当性の評価、そしてもし妥当でないならばなぜ実験の再現が失敗するかの理由について多くの努力が行われてきた^[2]^[3]。心理学と同じく、他の社会科学の分野の中でも社会学や経済学等は共に、自然科学との比較で用語の定義が曖昧かつ研究の再現性も低い問題が指摘されている^[4]。

科学一般

1500人の科学者を対象にした2016年の調査によれば、70%の研究者が他者の実験の再現に失敗した（50%の研究者は自身の研究の再現にも失敗している）。この数字は分野によって異なる^[5]。

凡例: 他者が行った実験に失敗したことがある人の割合　(自身が行った実験に失敗したことがある人の割合)
化学: 90% (60%)
生命科学: 80% (60%)
物理学と工学: 70% (50%)
医学: 70% (60%)
地球科学と環境科学: 60% (40%)

2009年には科学者の2%が、少なくとも一度は（自身が）《研究の捏造》（＝科学における不正行為の一種）を行い、科学者の14%はそのような捏造を行った人を個人的に知っていることを認めた。「（実験）処理の誤り」は、（他の分野に比べて）医学研究者の方がより頻繁に報告している^[6]。

医学

1990年から2003年にかけての、1000件以上引用された49の医学研究のうち、45の研究で研究された治療法が効果的であったと主張された。これらの研究のうち、16%は後続研究により否定され、16%は治療法の効果が誇張され、24%は再現されなかった^[7]。アメリカ食品医薬品局は1977年から1990年にかけて、医学研究の10%から20%に欠陥を発見した^[8]。アムジェンに勤務する生命技術コンサルタントの Glenn Begley とテキサス大の Lee Ellis が2012年に出版した論文では、癌の前臨床研究のたった11%しか研究の再現に成功しなかったと主張している^[9]^[10]。学術雑誌 PLOS Medicine で最近出版された論文のタイトルは "Why Most Clinical Research Is Not Useful"（なぜほとんどの臨床研究は使えないのか）である^[11]。

心理学

要約

視点

実験の再現の失敗は心理学に固有のものではなく、科学の全ての領域で発見される^[12]。しかしながらいくつかの要素が合わさって心理学を論争の中心に置いてきた。臨床心理学のような他の心理学の領域においても関係はあるものの、多くの焦点は社会心理学の領域に当てられてきた。

まず最初に、疑わしい研究慣習（英: questionable research practices, QRPs）が心理学において一般に認知されてきた。故意のねつ造ではないものの、このような慣習の結果として許容可能な科学的慣習におけるグレーゾーンが利用されるか、もしくは望ましい結果を得るための努力としての柔軟なデータ収集、分析、報告が利用されてきた。QRPsの例として、データを選択して報告する事や部分的な出版（出版にあたって研究条件や収集した従属変数の一部のみを報告する事）、恣意的な停止（データ収集をいつ止めるかをしばしば検定が統計的に有意になるかに基いて選ぶ）、p値の丸め（統計的に有意であることを述べるためにp値を5%となるように丸める事）、ファイル・ドロワー効果（英: file drawer effect）（データが出版されないこと）、ポストホックなストーリー展開（（仮説が無い状況での）探索的な分析を（何らかの仮説についての）確証を得るための分析として見なすこと）、外れ値の操作（統計的検定が有意となるようにデータセットから外れ値を削除したり除去したりすること）などがある^[13]^[14]^[15]^[16]。2000人以上の心理学者による聞き取り調査によれば、回答者の多くは少なくとも一つのQRPを用いたことを認めている^[13]。出版への圧力、もしくは著者自身の確証バイアスに依ることが多い偽陽性的な結論は心理学に固有の災いであり、一部の読者はある程度の懐疑主義を持たなくてはならない^[17]。

第二に、特に心理学と社会心理学は明かな研究不正に伴ういくつかのスキャンダルの中心に巻き込まれてきた。最も注記すべきはDiederik Stapel（英語版）が認めたデータのでっちあげだが^[18]、他の研究者に対しても疑惑はある。しかしながら多くの研究者は研究不正は、おそらくは、再現性の危機について大きな寄与はないと認めている。

第三に、心理科学におけるいくつかの効果は現在の再現性の危機以前より再現することが難しいということが発見されてきた。例えば、科学雑誌 Judgment and Decision Making は無意識的思考理論（英語版）を支持する事に失敗した研究を数年にわたっていくつか発行している。理論に対し強い疑念を持っていない研究グループによって研究実験が事前登録され施行される時、研究の再現は特に難しくなるように思われる。

これら三つの要素は結果として実験の再現についてダニエル・カーネマンによる新たな注意をもたらした^[19]。多くの効果の精密な調査はいくつかの中心的な信念は再現する事が難しいことを示してきた。学術雑誌 Social Psychology の最近の特集号のひとつは再現研究に焦点を当てており、今までの固定観念の多くが再現することが難しいことを発見した^[20]。学術雑誌 Perspectives on Psychological Science の2012年の特集号でもまた出版バイアスからヌル・アバージョン（null aversion、否定的な結果を避けようとする考え方）まで含む心理学における再現性の危機に寄与する問題について焦点があてられた^[21]。2015年、心理学において最初の再現性の公開実証研究が出版された。これはReproducibility Project（英語版）と呼ばれている。三つの心理学の最も有力な学術雑誌における100個の実証研究の再現のため世界中の研究者が協力した。行われた再現実験の多くが事前に予期された結果と同じ傾向を示したものの、統計的に有意な水準で再現することに成功したものは半数以下となった^[22]。

学者James Coyneは多くの研究実験とメタアナリシスが質の悪さと著者とプロの組織の両方に関連する利益相反によって毀損されており、結果としてある種の精神療法の効果について多くの偽陽性をもたらしていると著している^[23]。

再現性の危機は心理学が非科学的であるということを意味しない^[24]^[25]^[26]。むしろこのプロセスは、科学的なプロセスの辛辣な部分ではあるが、健康的である。このプロセスにおいて古い考えや入念かつ精密な調査に耐えることのできない考えが（この方法が常に効率的であるとは限らないものの^[27]^[28]）排除される^[29]^[30]。この結論として、かつて信頼できると見なされた心理学のいくつかの分野、例えば社会的プライミング、が再現実験の失敗により詳細な調査の対象となっている^[31]。イギリスのインデペンデント紙はReproducibility Project（英語版）の結果は出版された研究の多くがただの“心理バブル”（psycho-babble）であることを示したと記している^[32]。

ノーベル賞受賞者で心理学の名誉教授であるダニエル・カーネマンは、出版された方法は曖昧であることが多いので、原著者は再現性への努力に携わるべきだと主張している^[33]。他の科学者、例えばAndrew Wilson博士はこれに同意せず、出版された方法の詳細を書くべきだと主張している。2012年における心理学分野の再現率調査は、著者が研究の原著者と共同した時、再現研究において高い再現成功率が得られることを示唆している^[34]（原著者と共同しない場合の再現成功率は64.6%なのに比べ原著者と共同した研究における再現成功率は91.7%である）。

心理学における再現率

Open Science CollaborationがBrian Nosek（英語版）と共同して行った2015年8月の報告では三つの高ランクの心理学の学術雑誌から100個の心理科学における研究の再現性を推定した^[35]。元々の研究では97%の研究が統計的に有意な効果（p 値が0.05以下）を持っていたのに比べ、再現実験全体の36%が統計的に有意である結果が得られた。再現実験における効果量（英語版）の平均は元々の研究で報告された効果量のおよそ半分程度の大きさだった。

同じペーパーでは学術雑誌（Journal of Personality and Social Psychology（英語版） [JPSP], Journal of Experimental Psychology: Learning, Memory, and Cognition（英語版） [JEP:LMC], Psychological Science（英語版） [PSCI]）と分野（社会心理学と認知心理学）の再現率と効果量も調査された。研究の再現率はJPSPは23%、JEP:LMCは38%、PSCIは38%であった。認知心理学における研究の再現率は50%で社会心理学における研究の再現率（25%）より高かった。

1900年から2012年の間の心理学の学術雑誌の上位100誌における出版履歴による分析が示唆するところによると、全ての心理学の出版論文の内およそ1.6%については再現実験が行われていた^[34]。もし「再現」（"replication"）という用語が論文中に登場したならば、その論文は再現実験が行われていると考慮した。これらの研究の一つのサブセット（500個の研究）を更なる調査の為にランダムに選ぶと、その再現率は低く、1.07%（500個の研究の内342個は再現実験が行われていた）となった。500の研究のサブセットにおいて分析が示すところによれば、出版された再現実験の78.9%が成功していた。少なくとも一人以上の原著者が再現実験に参加した時、再現実験の成功率は有意に高くなった（64.6%に比べて91.7%である）。

方法論的な社会的ジレンマ

Brian D. Earp と Jim A. C. Everettは、心理学における再現実験を推奨させない社会的な構造に着目して、なぜ再現実験が一般的ではないのかについて5つの点を列挙した^[36]^[37]。

他者の発見の独立かつ直接的な再現は再現研究者にとって時間がかかる。
再現実験は研究者自身のオリジナルな考えを反映した他のプロジェクトから直接的にエネルギーと資源を奪いがちである。
再現実験は一般に出版することが難しい（再現実験は独自性が無いと見なされるという理由が大部分を占める）。
もし再現実験が出版されても、これらは分野に対する大きな貢献というよりは 'bricklaying' な研究とみなされがちである。
再現実験は認知も称賛もされづらく、キャリア上の基本的な安定さえ得づらい^[38]。

これらの理由により著者らは心理学は、分野の利益と個別の研究者の利益が調和しない、方法論的な社会的ジレンマに直面していると主張した。

社会学や経済学

社会科学の分野の中で心理学の他にも、社会学や経済学等は共に自然科学との比較で用語の定義が曖昧かつ研究の再現性も低い問題が指摘されている。そのため、アメリカ合衆国国立衛生研究所（NIH）は一部の社会科学分野の現状の是正の方向性を示す戦略を発表した^[4]。ブール最適化は特に問題が多く、社会科学へのブール最適化の導入は、論理実証主義の時代遅れの考え方に似ている。その無批判な適用は再現性の危機の一因となっている^[39]。

人工知能

人工知能における機械学習の予測精度は過大評価される可能性があり^[40]、機械学習が不適切に行われた場合の再現性と情報漏洩の問題がある^[41]^[42]^[43]。また、ルンド大学の研究者によれば、主成分分析は機械学習において再現性がない可能性があり、使用する際には特別な注意がほしい^[44]。

危機の原因

要約

視点

Glenn Begley と John Ioannidis（英語版）は2015年に出版された論文で、現在の科学の苦境をまとめるために5つの要点を提出した^[45]。

新しいデータの作成／前例のない率での出版
ほとんど長期的には称賛されえないだろう発見の証拠の強制
原因：良い科学的慣習の定着の失敗と、出版か死か（英: publish or perish）という絶望
これは多くの要素と多くの利害関係者が存在する問題である。
一つの集団が単独で責任を負うものでもなく、一つの答えで十分でもないだろう。

実際、科学の精度の制御メカニズムにおいてありうる危機の予測は数十年にわたって、特にscience and technology studies（英語版）（STS）における学者の間で、遡及することができる。科学計量学（英語版）の父と見なされるDerek de Solla Price（英語版）は、科学は自身の指数的成長の結果として'老衰'してしまうだろう、と予測している^[46]。今日におけるある文献は、注目と質の両方において老衰しているのを嘆きながら、この行き過ぎた予言が間違いであると証明しようとしているように見える^[47]^[48]。

心理学者で科学史家であるJerome R. Ravetz（英語版）は自身の1971年に出版された著書Scientific knowledge and its social problems（英語版） で、制限された科学者のコミュニティで出来た小さな科学から大きな科学もしくは技術的な科学に移る上で、科学は質のコントロールの内部的システムにある大きな問題に悩まされることだろう、と予測した。Ravetz は近代のインセンティブの科学的システムは機能不全になるだろう（現在の出版か死かへの挑戦）と予測した。Ravetz にとって、規範と標準、そしてそういったものの上に立とうとする意志によってつながった学者コミュニティがあるならば、科学の質は保たれるだろう。

歴史家のPhilip Mirowski（英語版）は、より最近の2011年の著作 Science Mart で同じような診断を下した^[49]。'Mart' はここでは小売大手のウォルマート 'Wall Mart' に言及され、科学の商品化の暗示である。Mirowski の分析では、科学が市場で取引される商品になった時にその質は崩壊する。Mirowski は、科学の減衰を企業が自らの業務を大学にアウトソーシングさせるために企業内研究室を閉じたという決定に帰し、結果として企業の研究は大学からより安価な契約研究機関に移ったと主張している。

科学の質をコントロールするシステムの危機は政策においての科学利用にも影響を与えている。これは、証拠に基づいた政策（エビデンスベースドポリシー、英: evidence based policy）において現在の緊張点を識別しているSTSの科学者集団による最近の論文で触れられている^[50]^[51]。