ランダム化比較試験

ランダム化比較試験（らんだむかひかくしけん、英: randomized controlled trial）（またはランダム化対照試験^[3]、RCT）とは、直接的な実験的制御下にない要因を制御するために使用される科学的実験の一形態である。RCTの例として、薬物、手術技術、医療機器、診断手順（英語版）、食事療法、その他の医療処置の効果を比較する臨床試験がある^[4]^[5]。

RCTに参加する被験者は、研究結果に影響を与える可能性のある既知および未知の方法で互いに異なっており、直接的に制御することはできない。無作為に（英語版）参加者を比較する治療群に割り付けることで、RCTはこれらの影響に対する統計的制御を可能にする。適切に設計され、適切に実施され、十分な数の参加者を登録すれば、RCTはこれらの交絡因子を十分に制御し、研究対象となる治療の有用な比較を提供することができる。

定義と例

臨床研究におけるRCTは、通常、提案された新しい治療を既存の医療水準（英語版）と比較する。これらは、それぞれ「実験」群と「対照」群と呼ばれる。一般的に認められた治療法が存在しない場合、参加者が治療の割り付けに関する情報を知らされない、または盲検化されるように、対照群でプラセボが使用されることがある。この盲検化の原則は、理想的には、研究者、技術者、データ分析者、評価者などの他の関係者にも可能な限り拡大される。効果的な盲検化により、治療の生理学的効果を様々な心理的なバイアスの源から実験的に分離することができる。

参加者の治療への無作為な割り付けにより、選択バイアスと割り付けバイアスが減少し、治療の割り付けにおいて既知および未知の予後因子の両方のバランスが取れる^[6]。盲検化により、他の形態の実験者および被験者バイアスが減少する。

適切に盲検化されたRCTは、臨床試験におけるゴールドスタンダード（英語版）とされる。盲検化RCTは、医療介入の有効性を検証するために一般的に使用され、薬物反応（英語版）などの有害作用に関する情報も提供することができる。ランダム化比較試験は、研究対象の治療が人間の健康に影響を与えるという説得力のある証拠を提供することができる^[7]。

「RCT」と「ランダム化試験」という用語は時として同義語として使用されるが、後者の用語は対照群への言及を省略しており、したがって対照群を持たない複数の治療群を相互に比較する研究を表すことができる^[8]。同様に、この頭字語は時として「ランダム化臨床試験」または「ランダム化比較試験」と展開され、科学文献（英語版）において曖昧さを生じさせる^[9]^[10]。すべてのRCTがランダム化対照試験というわけではない（また、対照群の使用が非現実的または非倫理的な場合など、そうなり得ない場合もある）。臨床研究では、ランダム化対照臨床試験という代替用語が使用される^[11]。ただし、RCTは多くの社会科学を含む他の研究分野でも採用されている。

歴史

最初に報告された臨床試験は、壊血病の治療法を特定するために1747年にジェームズ・リンドによって実施された^[12]。最初の盲検実験は、メスメリズムの主張を調査するために1784年にフランス王立動物磁気委員会（英語版）によって実施された。研究者の盲検化を提唱した初期の論文は、19世紀後半にクロード・ベルナールによって書かれた。ベルナールは、実験の観察者は検証される仮説について知識を持つべきではないと推奨した。この提案は、科学的観察は十分な教育を受けた、情報を持った科学者によってのみ客観的に有効となり得るという、当時の支配的な啓蒙時代の態度と鋭く対照をなした^[13]。盲検化された研究者による最初の記録された研究は、1907年にW・H・R・リバーズ（英語版）とH・N・ウェバーによってカフェインの効果を調査するために発表された^[14]。

無作為化実験（英語版）は、最初に心理学において、1880年代にチャールズ・サンダース・パースとジョセフ・ジャストロー（英語版）によって導入され^[15]、その後教育学でも導入された^[16]^[17]^[18]。治療群と対照群（英語版）を比較した最初の実験は、1901年にロバート・ウッドワース（英語版）とエドワード・ソーンダイクによって^[19]、そして1907年にジョン・E・クーバー（英語版）とフランク・アンジェル（英語版）によって発表された^[20]^[21]。

20世紀初頭、イェジ・ネイマン^[22]とロナルド・A・フィッシャーにより、農業において無作為化実験が登場した。フィッシャーの実験研究と著作によって、無作為化実験が普及した^[23]。

医学における最初の公表されたランダム化比較試験は、医学研究審議会の調査を記述した1948年の論文「肺結核のストレプトマイシン治療」であった^[24]^[25]^[26]。その論文の著者の一人はオースティン・ブラッドフォード・ヒル（英語版）で、現代のRCTを考案したとされている^[27]。

試験デザインは、1980年代に実施された心臓発作治療に関する大規模な梗塞生存に関する国際研究（英語版）（ISIS）試験によってさらに影響を受けた^[28]。

20世紀後半までに、RCTは医学における「合理的治療」の標準的方法として認識されるようになった^[29]。2004年時点で、コクラン・ライブラリー（英語版）には150,000以上のRCTが収録されていた^[27]。医学文献におけるRCTの報告を改善するため、国際的な科学者と編集者のグループは1996年、2001年、2010年に統合研究報告基準（英語版）（CONSORT）声明を発表し、これらは広く受け入れられるようになった^[2]^[6]。無作為化は、バイアスを減らすために偶然の要素を用いて試験対象者を治療群または対照群に割り付けるプロセスである。

倫理

臨床試験に共通する臨床的等価性（英語版）（「専門医療コミュニティ内での好ましい治療に関する真の不確実性」）の原則^[30]がRCTに適用されてきたが、RCTの倫理には特別な考慮事項がある。一つには、等価性そのものがRCTを正当化するのに不十分であると主張されている^[31]。また、「集団的等価性」は個人的等価性の欠如（例えば、介入が効果的であるという個人的信念）と対立する可能性がある^[32]。最後に、一部のRCTで使用されているゼレンの設計（英語版）は、インフォームド・コンセントを得る前に被験者を無作為化するが、これはスクリーニングと特定の治療のRCTでは倫理的である可能性があるが、「ほとんどの治療試験」では非倫理的である可能性が高い^[33]^[34]。

被験者はRCTへの参加についてインフォームド・コンセントをほぼ常に提供するが、1982年以降の研究では、RCT被験者は自分が個人的に最適な治療を確実に受けると信じている可能性があることが報告されている。つまり、研究と治療の違いを理解していない^[35]^[36]。この「治療上の誤解（英語版）」の普及度と対処方法を決定するためには、さらなる研究が必要である^[36]。

RCT手法の変種は、十分に理解されていない文化的影響を生み出す可能性もある^[37]。例えば、末期疾患の患者は、治療が成功する可能性が低い場合でも、治癒への希望を持って試験に参加することがある。

試験登録

2004年、国際医学雑誌編集者委員会（ICMJE）は、2005年7月1日以降に登録を開始するすべての試験について、委員会の12の加盟雑誌のいずれかでの出版を検討する前に登録が必要であると発表した^[38]。しかし、試験登録は依然として遅れたり、全く行われなかったりすることがある^[39]^[40]。医学雑誌は、出版の前提条件として臨床試験登録を義務付ける方針の適用が遅れている^[41]。

分類

研究デザインによる分類

RCTを分類する一つの方法は、研究デザイン（英語版）による分類である。医療文献において、最も一般的なものから最も少ないものまで、RCT研究デザインの主要なカテゴリーは以下の通りである^[42]：

並行群間比較試験（英語版） – 各参加者は無作為にグループに割り付けられ、そのグループの全参加者が介入を受ける（または受けない）^[43]^[44]。

クロスオーバー（英語版） – 時間の経過とともに、各参加者が無作為な順序で介入を受ける（または受けない）^[45]^[46]。

クラスター（英語版） – 参加者の既存のグループ（例：村、学校）が無作為に選ばれ、介入を受ける（または受けない）^[47]^[48]。

要因実験（英語版） – 各参加者は、特定の組み合わせの介入または非介入を受けるグループに無作為に割り付けられる（例：グループ1はビタミンXとビタミンY、グループ2はビタミンXとプラセボY、グループ3はプラセボXとビタミンY、グループ4はプラセボXとプラセボYを受ける）。

2006年12月にPubMedに索引付けされた616件のRCTの分析によると、78%が並行群間試験、16%がクロスオーバー、2%が分割体、2%がクラスター、2%が要因実験であった^[42]。

効果に関する関心による分類（有効性vs.実効性）

→詳細は「実用的臨床試験」を参照

RCTは「説明的」または「実用的」に分類することができる^[49]。説明的RCTは、厳密に選択された参加者と厳密に管理された条件下で研究環境における有効性を検証する^[49]。対照的に、実用的RCT（pRCT）は、比較的選択されていない参加者と柔軟な条件下で日常診療における有効性を検証する。このように、実用的RCTは「実践に関する意思決定に情報を提供する」ことができる^[49]。

仮説による分類（優越性vs.非劣性vs.同等性）

RCTのもう一つの分類は、方法論と報告が異なる「優越性試験」、「非劣性試験」、「同等性試験」に分類する^[50]。ほとんどのRCTは優越性試験であり、一つの介入が統計的に有意な方法で他の介入より優れていると仮説を立てる^[50]。一部のRCTは非劣性試験であり、「新しい治療が参照治療より劣っていないことを判断する」ためのものである^[50]。その他のRCTは同等性試験であり、2つの介入が互いに区別できないという仮説を立てる^[50]。

無作為化

要約

視点

RCTにおける適切な無作為化（英語版）の利点は以下の通りである^[51]：

「治療の割り付けにおけるバイアスを排除する」、特に選択バイアスと交絡を排除する。
「研究者、参加者、評価者から治療の同定を盲検化（マスク化）することを容易にする」。
「治療群間のアウトカムの差が単なる偶然を示すにすぎない可能性を、確率論を用いて表現することを可能にする」。

患者を異なる介入に無作為化する際には2つのプロセスが関与する。1つ目は、予測不可能な割り付けの順序を生成するための「無作為化手順」の選択であり、これは患者を等確率で任意のグループに単純に無作為に割り付けるものである場合もあれば、「制限付き」である場合や「適応的」である場合もある。2つ目のより実践的な問題は「割り付けの隠蔵」であり、これは患者を各グループに最終的に割り付ける前にグループの割り当てが明らかにならないようにするために取られる厳格な予防措置を指す。被験者を一方のグループともう一方のグループに交互に割り付けるなどの非無作為な「系統的」な群分け方法は、「無限の汚染の可能性」を引き起こし、割り付けの隠蔵を破る可能性がある^[52]。

しかし、適切な無作為化が不適切な無作為化と比較してアウトカムを変化させるという経験的証拠は検出が困難であった^[53]。

手順

治療の割り付けとは、各治療群における望ましい患者の割合のことである。

理想的な無作為化手順は以下の目標を達成する^[54]：

統計的検出力（英語版）を最大化する、特にサブグループ分析（英語版）において。一般的に、等しい群サイズは統計的検出力を最大化するが、一部の分析（例：ダネット法を用いたプラセボと複数の用量の多重比較^[55]）では不均等な群サイズがより検出力が高い場合があり、また非分析的な理由（例：試験治療を受ける確率が高ければ患者の参加意欲が高まる可能性がある、または規制当局が治療に曝露される最小患者数を要求する場合がある）で望ましい場合がある^[56]。

選択バイアスを最小化する。これは、研究者が意識的または無意識的に治療群間で患者の登録を優先的に行うことができる場合に発生する可能性がある。良い無作為化手順は予測不可能であり、研究者は過去の治療割り付けに基づいて次の被験者の群割り付けを推測することができない。選択バイアスのリスクは、過去の治療割り付けが既知である場合（非盲検試験の場合）または推測可能である場合（おそらく薬剤に特徴的な副作用がある場合）に最も高くなる。

割り付けバイアス（または交絡）を最小化する。これは、アウトカムに影響を与える共変量が治療群間で均等に分布していない場合に発生する可能性があり、治療効果が共変量の効果と交絡する（すなわち、「偶発的バイアス」^[51]^[57]）。無作為化手順が群間でアウトカムに関連する共変量の不均衡を引き起こす場合、効果の推定値は共変量を調整しなければバイアス（英語版）がある可能性がある（共変量は測定されていない可能性があり、したがって調整が不可能である）。

しかし、どの無作為化手順もすべての状況でこれらの目標を満たすわけではないため、研究者は特定の研究のためにその利点と欠点に基づいて手順を選択しなければならない。

単純

これは一般的に使用される直感的な手順であり、「繰り返しのフェアなコイン投げ」に似ている^[51]。「完全」または「無制限」無作為化としても知られ、選択バイアスと偶発的バイアスの両方に対してロバストである。しかし、その主な欠点は小規模なRCTにおける群サイズの不均衡の可能性である。したがって、200人を超える被験者を持つRCTにのみ推奨される^[58]。

制限付き

小規模なRCTにおける群サイズを均衡させるために、何らかの形の制限付き無作為化（英語版）が推奨される^[58]。RCTで使用される主な制限付き無作為化の種類は以下の通りである：

置換ブロック無作為化（英語版）またはブロック無作為化：「ブロックサイズ」と「割り付け比」（一方の群と他方の群の被験者数の比）が指定され、各ブロック内で被験者が無作為に割り付けられる^[52]。例えば、ブロックサイズが6で割り付け比が2:1の場合、4人の被験者を一方の群に、2人を他方の群に無作為に割り付けることになる。この種の無作為化は、例えば多施設試験（英語版）における施設ごとの「層別無作為化（英語版）」と組み合わせることができ、「各群における参加者の特性の良好なバランスを確保する」ことができる^[6]。置換ブロック無作為化の特殊なケースは「無作為割り付け」であり、サンプル全体が1つのブロックとして扱われる^[52]。置換ブロック無作為化の主な欠点は、ブロックサイズが大きく無作為に変更されても、この手順が選択バイアスにつながる可能性があることである^[54]。もう一つの欠点は、置換ブロック無作為化されたRCTのデータの「適切な」分析にはブロックによる層別化が必要なことである^[58]。

適応的バイアスコイン無作為化法（壺無作為化が最も広く知られている種類）：これらの比較的珍しい方法では、群が過剰に代表されている場合にその群に割り付けられる確率が減少し、群が過小に代表されている場合に増加する^[52]。これらの方法は、置換ブロック無作為化よりも選択バイアスの影響を受けにくいと考えられている^[58]。

適応的

少なくとも2種類の「適応的」無作為化手順がRCTで使用されているが、単純無作為化や制限付き無作為化よりもはるかに頻度は低い：

共変量適応的無作為化（その一種が最小化法（英語版））：「共変量の不均衡」を最小化するために、群に割り付けられる確率が変化する^[58]。最小化法は「支持者と批判者」がいると報告されており^[52]、最初の被験者の群割り付けのみが真に無作為に選択され、この方法は必ずしも未知の要因のバイアスを排除しないためである^[6]。

反応適応的無作為化（アウトカム適応的無作為化としても知られる）：群における先行患者の反応が好ましい場合、その群に割り付けられる確率が増加する^[58]。RCTの過程で治療が有効または無効である確率が増加する場合、この方法は他の種類の無作為化よりも倫理的であるという主張がなされてきたが、倫理学者はまだこのアプローチを詳細に研究していない^[59]。

割り付けの隠蔵

→詳細は「割り付けの隠蔵」を参照

「割り付けの隠蔵」（「患者が研究に登録される前に割り付けられる治療が分からないように無作為化プロセスを保護する手順」と定義される）は、RCTにおいて重要である^[60]。実際には、RCTの臨床研究者は公平性を維持することが困難であることが多い。次の患者の割り付けを決定するために、研究者が封印された封筒を光にかざしたり、オフィスを荒らして群の割り当てを特定しようとしたりする話は数多くある^[52]。このような行為は選択バイアスと交絡因子を導入し（これらは無作為化によって最小化されるべきである）、研究結果を歪める可能性がある^[52]。適切な割り付けの隠蔵により、研究の進行中および研究終了後に患者と研究者が治療の割り付けを発見することを防ぐべきである。治療に関連する副作用や有害事象は、研究者や患者に割り付けを明らかにするほど特異的である可能性があり、研究者が収集するまたは被験者に要求する主観的パラメータにバイアスを導入したり影響を与えたりする可能性がある。

割り付けの隠蔵を確保する標準的な方法には、連続番号付き不透明封印封筒（SNOSE）、連続番号付き容器、薬局管理無作為化、中央無作為化がある^[52]。割り付けの隠蔵方法をRCTのプロトコル（英語版）に含め、RCTの結果の公表において割り付けの隠蔵方法を詳細に報告することが推奨されている。しかし、2005年の研究では、ほとんどのRCTがプロトコル、公表論文、またはその両方において不明確な割り付けの隠蔵を持っていることが判明した^[61]。一方、2008年の146件のメタアナリシスの研究では、不適切または不明確な割り付けの隠蔵を持つRCTの結果は、RCTのアウトカムが客観的ではなく主観的である場合にのみ、有益な効果に偏る傾向があると結論付けられた^[62]。

標本サイズ

→詳細は「標本サイズ決定」を参照

対照群と治療群に割り付けられる治療単位（被験者または被験者群）の数は、RCTの信頼性に影響を与える。治療の効果が小さい場合、いずれかの群の治療単位数が、それぞれの統計的検定において帰無仮説を棄却するのに不十分である可能性がある。帰無仮説を棄却できないことは、与えられた検定において治療が統計的に有意な効果を示さないことを意味する。しかし、標本サイズが増加するにつれて、同じRCTでも、その効果が小さくても治療の有意な効果を示すことができる可能性がある^[63]。

盲検化

→「盲検化実験」を参照

RCTは、「研究参加者、介護者、またはアウトカム評価者が、どの介入が受けられたかを知ることを防ぐ手順」によって盲検化（「マスク化」とも呼ばれる）される場合がある^[62]。割り付けの隠蔵とは異なり、盲検化はRCTにおいて時として不適切または不可能である。例えば、RCTが患者の積極的な参加が必要な治療（例：理学療法）を含む場合、参加者を介入に対して盲検化することはできない。

伝統的に、盲検化RCTは「単盲検」、「二重盲検」、または「三重盲検」として分類されてきた。しかし、2001年と2006年の2つの研究で、これらの用語は人によって異なる意味を持つことが示された^[64]^[65]。2010年のCONSORT声明（英語版）では、著者と編集者は「単盲検」、「二重盲検」、「三重盲検」という用語を使用せず、代わりに盲検化RCTの報告では「実施された場合、介入への割り付け後に誰が盲検化されたか（例：参加者、医療提供者、アウトカム評価者）、およびその方法」について議論すべきと規定している^[6]。

盲検化を行わないRCTは、「非盲検」^[66]、「オープン」^[67]、（介入が薬物の場合）「オープンラベル（英語版）」^[68]と呼ばれる。2008年の研究では、非盲検RCTの結果は、RCTのアウトカムが客観的ではなく主観的である場合にのみ、有益な効果に偏る傾向があると結論付けられた^[62]。例えば、多発性硬化症の治療に関するRCTでは、非盲検の神経内科医（盲検の神経内科医ではない）は治療が有益であると感じていた^[69]。実用的RCTでは、参加者と提供者は多くの場合非盲検であるが、「評価者を盲検化するか、アウトカムの評価のために客観的なデータソースを得ることが依然として望ましく、多くの場合可能である」^[49]。

データの分析

RCTで使用される統計的手法の種類は、データの特性に依存し、以下を含む：

二分（二値）アウトカムデータの場合、ロジスティック回帰（例：C型肝炎に対するペグインターフェロンアルファ-2a（英語版）投与後の持続的ウイルス学的反応を予測する^[70]）やその他の方法を使用することができる。

連続アウトカムデータの場合、共分散分析（例：急性冠症候群後のアトルバスタチン投与後の血中脂質レベルの変化^[71]）は予測変数の効果を検定する。

打ち切りされる可能性のあるイベントまでの時間データの場合、生存分析（例：閉経期のホルモン補充療法投与後の冠状動脈性心疾患までの時間に対するカプラン・マイヤー推定量とコックス比例ハザードモデル^[72]）が適切である。

使用される統計的手法に関係なく、RCTデータの分析における重要な考慮事項には以下が含まれる：

中間結果によってRCTを早期に中止すべきかどうか。例えば、介入が「予想以上の利益または害を生じる」場合、または「研究者が実験的介入と対照的介入の間に重要な差がないという証拠を見出す」場合、RCTは早期に中止される可能性がある^[6]。

群を無作為化された時点のまま正確に分析できる程度（すなわち、いわゆる「治療意図分析（英語版）」が使用されるかどうか）。「純粋な」治療意図分析は、無作為化されたすべての被験者について「完全なアウトカムデータが利用可能な場合にのみ可能」である^[73]。一部のアウトカムデータが欠損している場合、既知のアウトカムのケースのみを分析するか、代入されたデータを使用するかという選択肢がある^[6]。それにもかかわらず、分析が無作為化された群のすべての参加者をより多く含めることができれば、RCTが受けるバイアスは少なくなる^[6]。

サブグループ分析（英語版）を実施すべきかどうか。これらは、多重比較が他の研究で確認できない偽陽性の結果を生む可能性があるため、「多くの場合推奨されない」^[6]。

結果の報告

要約

視点

「CONSORT 2010声明（英語版）」は、「RCTの報告のための証拠に基づく最小限の推奨事項セット」である^[74]。CONSORT 2010チェックリストには、最も一般的なRCTのタイプである「個別に無作為化された二群並行試験」に焦点を当てた25項目（多くにサブ項目がある）が含まれている^[2]。

他のRCT研究デザインについては、「CONSORT拡張版（英語版）」が発表されており、以下のような例がある：

Consort 2010声明：クラスターランダム化試験への拡張^[75]

Consort 2010声明：非薬物治療介入^[76]^[77]

「ランダム化比較試験報告における代替エンドポイントの報告（CONSORT-Surrogate）：説明と詳述を伴う拡張チェックリスト」^[78]

相対的重要性と観察研究

2000年に『ニューイングランド・ジャーナル・オブ・メディシン』で発表された2つの研究では、観察研究（英語版）とRCTは全体的に同様の結果を生み出したことが判明した^[79]^[80]。2000年の研究の著者らは、「観察研究は証拠に基づく医療を定義するために使用すべきではない」という信念と、RCTの結果が「最高水準の証拠である」という信念に疑問を投げかけた^[79]^[80]。しかし、2001年に『ジャーナル・オブ・ジ・アメリカン・メディカル・アソシエーション』で発表された研究では、観察研究とRCTの間で「偶然を超えた不一致が発生し、治療効果の推定された大きさの差は非常に一般的である」と結論付けた^[81]。2014年（2024年に更新）のコクランレビューによると、観察研究とランダム化比較試験の間に有意な効果の差があるという証拠はほとんどない^[82]。差異を評価するためには、研究デザイン以外の、異質性、集団、介入または比較対照などを考慮する必要がある^[82]。

他の研究タイプを超えたRCTの科学的知識への貢献を疑問視する2つの理由がある：

研究デザインを新しい発見の可能性によって順位付けすると、逸話的証拠が最上位に、観察研究がその次に、RCTがその次になる^[83]。

治療された状態の予想される安定または進行性の悪化の自然経過に比べて劇的で急速な効果を持つ治療については、RCTは不要である可能性がある^[84]^[85]。一例として、1977年の非無作為化研究で治癒率を5%から60%に上昇させた、シスプラチンを含む併用化学療法（英語版）による転移性精巣がんの治療がある^[85]^[86]。

統計結果の解釈

すべての統計的手法と同様に、RCTも第一種（「偽陽性」）および第二種（「偽陰性」）統計的誤差の両方の影響を受ける。第一種誤差に関して、典型的なRCTでは、同等に有効な2つの治療が有意に異なると誤って判断する確率として0.05（すなわち20分の1）を使用する^[87]。第二種誤差に関して、多くの「陰性」RCTの標本サイズ（英語版）が陰性結果について決定的な結論を下すには小さすぎることを指摘した1978年の論文の発表にもかかわらず^[88]、2005-2006年でもかなりの割合のRCTが不正確または不完全な標本サイズ計算を報告していた^[89]。

査読

結果の査読は科学的方法の重要な部分である。査読者は、信頼できない結果につながる可能性のある設計上の問題（例えば系統的バイアスを生み出すことによって）について研究結果を検討し、関連する研究や他の証拠の文脈で研究を評価し、研究がその結論を証明したと合理的に考えることができるかどうかを評価する。査読の必要性と結論を過度に一般化することの危険性を強調するために、ボストン地域の2人の医学研究者は、複葉機またはヘリコプターから飛び降りる23人のボランティアにパラシュートまたは空のバックパックをランダムに割り当てるランダム化比較試験を実施した。この研究は、パラシュートが空のバックパックと比較して怪我を減少させないことを正確に報告することができた。この結論の一般的な適用可能性を制限する重要な文脈は、航空機が地上に駐機されており、参加者はわずか2フィートほどしか飛び降りなかったということであった^[90]。

利点

要約

視点

RCTは、偽の因果関係とバイアスを減少させるため、医療政策と実践に影響を与えるエビデンスのヒエラルキー（英語版）において最も信頼できる形式の科学的証拠とされている。RCTの結果は、根拠に基づく実践の実施においてますます使用されているシステマティックレビューで組み合わせることができる。科学的組織がRCTまたはRCTのシステマティックレビューを利用可能な最高品質のエビデンスと考えている例として以下がある：

1998年時点で、オーストラリアの国立保健医療研究評議会（英語版）は、「レベルI」のエビデンスを「すべての関連するランダム化比較試験のシステマティックレビューから得られたもの」、「レベルII」のエビデンスを「少なくとも1つの適切に設計されたランダム化比較試験から得られたもの」と指定した^[91]。

少なくとも2001年以降、米国予防医療作業部会（英語版）は診療ガイドラインの推奨を作成する際に、研究のデザインとその内的妥当性の両方を品質の指標として考慮してきた^[92]。良好な内的妥当性（すなわち「I-good」の評価）を持つ「少なくとも1つの適切にランダム化された比較試験から得られたエビデンス」を、利用可能な最高品質のエビデンスとして認識してきた^[92]。

GRADEワーキンググループは2008年に、「重要な限界のないランダム化試験は高品質のエビデンスを構成する」と結論付けた^[93]。

「治療/予防、病因/有害性」の問題について、オックスフォード根拠に基づく医療センター（英語版）は2011年時点で、「レベル1a」のエビデンスを互いに一致するRCTのシステマティックレビュー、「レベル1b」のエビデンスを「個別のRCT（狭い信頼区間を持つ）」と定義した^[94]。

臨床実践の変更に貢献した予期せぬ結果を持つ注目すべきRCTには以下がある：

食品医薬品局の承認後、抗不整脈薬のフレカイニドとエンカイニド（英語版）はそれぞれ1986年と1987年に市場に出た^[95]。これらの薬剤に関する非無作為化研究は「輝かしい」と評価され^[96]、1989年初めには両薬の販売は月間約165,000処方に達した^[95]。しかし、その年にRCTの予備報告は、これら2つの薬剤が死亡率を増加させるとの結論を下した^[97]。その後、これらの薬剤の販売は減少した^[95]。

2002年以前は、観察研究に基づいて、医師は閉経後女性の心筋梗塞予防のためにホルモン補充療法を日常的に処方していた^[96]。しかし、2002年と2004年に発表された女性健康イニシアチブ（英語版）のRCTは、エストロゲンとプロゲスチンによるホルモン補充療法を受けている女性はプラセボ群の女性より心筋梗塞の発生率が高く、エストロゲン単独のホルモン補充療法は冠状動脈性心疾患の発生率を減少させなかったと主張した^[72]^[98]。観察研究とRCTの不一致の考えられる説明として、方法論、使用されたホルモン療法、研究された集団の違いが挙げられた^[99]^[100]。RCTの発表後、ホルモン補充療法の使用は減少した^[101]。

欠点

要約

視点

多くの論文がRCTの欠点について議論している^[84]^[102]^[103]。最も頻繁に引用される欠点には以下のものがある：

時間とコスト

RCTは高額になる可能性がある^[103]。ある研究では、2000年以前に国立神経疾患脳卒中研究所（英語版）が資金提供した28件の第III相（英語版）RCTの総費用が3億3500万米ドルで^[104]、RCT1件あたりの平均費用は1200万米ドルであった。それにもかかわらず、RCTの投資利益率は高い可能性がある。同じ研究では、質調整生存年を現行の平均一人当たり（英語版）国内総生産と同等と評価した場合、28件のRCTは試験プログラムの費用の46倍の「10年間の社会への純便益」を生み出したと推計された^[104]。

RCTは実施から公表まで数年を要するため、データは長年にわたって医療コミュニティから制限され、公表時には関連性が低くなっている可能性がある^[105]。

一部の介入を評価するために理想的とされる数年または数十年にわたってRCTを維持することは費用がかかる^[84]^[103]。

稀にしか発生しない事象（例：乳幼児突然死症候群）や稀な有害転帰（例：薬剤の稀な副作用）を予防するための介入には、極めて大きな標本サイズを持つRCTが必要となり、したがって観察研究によって最もよく評価される可能性がある^[84]。

RCTの実施費用のため、通常は1つまたは非常に少数の変数のみを検査し、複雑な医学的状況の全体像を反映することは稀である。対照的に、例えば症例報告は、患者の医学的状況の多くの側面（例：病歴、身体診察、診断、心理社会的（英語版）側面、フォローアップ）を詳細に記述することができる^[105]。

利益相反の危険性

医学的メタアナリシスのための基礎となる研究における可能性のある利益相反を開示するために2011年に実施された研究では、29件のメタアナリシスを調査し、メタアナリシスの基礎となる研究における利益相反が稀にしか開示されていないことを発見した。29件のメタアナリシスには、一般医学雑誌から11件、専門医学雑誌から15件、コクランシステマティックレビューデータベースから3件が含まれていた。29件のメタアナリシスは合計509件のランダム化比較試験（RCT）をレビューした。このうち318件のRCTが資金源を報告し、219件（69%）が企業から資金提供を受けていた。509件のRCTのうち132件が著者の利益相反開示を報告し、91件の研究（69%）が1人以上の著者の企業との金銭的つながりを開示していた。しかし、この情報はメタアナリシスにほとんど反映されていなかった。RCTの資金源を報告したのは2件（7%）のみで、RCTの著者と企業のつながりを報告したものはなかった。著者らは「メタアナリシスに含まれるRCTの企業からの資金提供や著者と企業の金銭的つながりによる利益相反の承認がないと、メタアナリシスからの証拠に対する読者の理解と評価が損なわれる可能性がある」と結論付けた^[106]。

一部のRCTは、政府、非営利団体、またはその他の資金源ではなく、医療産業（例：製薬産業）によって全額または一部資金提供されている。2003年に発表されたシステマティックレビューでは、1986年から2002年の間に企業が後援するRCTと企業が後援しないRCTを比較した4つの論文を発見し、すべての論文で企業の後援と研究の肯定的な結果との相関が見られた^[107]。主要な医学・外科学雑誌に掲載された1999年から2001年のRCTを調査した2004年の研究では、企業が資金提供したRCTは「統計的に有意な企業寄りの結果と関連する可能性が高い」と判断された^[108]。これらの結果は外科手術の試験でも反映されており、企業の資金提供は試験の中止率には影響を与えなかったものの、完了した試験の公表の可能性は低くなっていた^[109]。企業が資金提供した公表されたRCTにおける企業寄りの結果の一つの考えられる理由は出版バイアスである^[108]。他の著者は、アカデミアと企業が後援する研究の異なる目標が、この違いに寄与していると指摘している。商業的後援者は、初期段階の試験で既に有望性を示した薬物の試験や、薬事承認のための規制要件を満たすための以前の肯定的な結果の再現により焦点を当てている可能性がある^[110]。

倫理

医療技術における破壊的イノベーションが開発された場合、他の先行する試験のため、またはRCT自体の初期段階において、対照群の転帰が劣っていることが「明白」になる場合、これをRCTで倫理的に試験することは困難である可能性がある。倫理的にRCTを早期に中止する必要がある可能性があり、将来のRCTで対照群からイノベーションを差し控えることについての倫理承認（および患者の同意）を得ることは実現可能ではない可能性がある。

ヒストリカルコントロール試験（HCT）は標本サイズを減らすために以前のRCTのデータを利用する。しかし、これらのアプローチは科学界で議論の的となっており、慎重に扱う必要がある^[111]。

社会科学において

要約

視点

社会科学におけるRCTの出現は最近のことであり、社会科学におけるRCTの使用は議論のある問題である。医学や健康の背景を持つ一部の執筆者は、様々な社会科学分野における既存の研究には厳密さが欠けており、ランダム化比較試験の使用を増やすことで改善すべきだと主張している^[112]。

交通科学

交通科学の研究者は、通学交通計画などのプログラムへの公的支出は、ランダム化比較試験によってその有効性が実証されない限り正当化できないと主張している^[113]。グラハム＝ロウらは^[114]、文献で見つかった77件の交通介入評価を5つの「品質レベル」に分類して検討した。彼らは、ほとんどの研究が低品質であると結論付け、今後の交通研究では可能な限りランダム化比較試験を使用することを提唱した。

スティーブ・メリア博士^[115]は、因果関係の確立とバイアスの回避におけるRCTの利点に関する主張は誇張されてきたと論じて、これらの結論に異議を唱えた。彼は、介入が効果を上げるために人間の行動を変える必要のある文脈でRCTを使用するための以下の8つの基準を提案した：

介入は：

ユニークな人々のグループのすべてのメンバー（例：国全体の人口、ユニークな組織のすべての従業員など）に適用されていない
対照群に適用されるものと同様の文脈または環境で適用される
他の活動から分離できる—そして研究の目的はこの分離された効果を評価することである
その実施から効果の成熟までの時間尺度が短い

そして因果メカニズムは：

研究者に既知であるか、あるいはすべての可能な代替案を検証できる
介入群と外部環境との間の重要なフィードバックメカニズムを含まない
外生的要因との安定的で予測可能な関係を持つ
対照群と介入群が逆転しても同じように作用する

犯罪学

2005年のレビューでは、1957-1981年に発表された35件と比較して、1982-2004年に発表された83件のランダム化実験が犯罪学で見つかった^[116]。著者らは見つかった研究を「警察活動」、「予防」、「矯正」、「裁判所」、「コミュニティ」の5つのカテゴリーに分類した^[116]。犯罪行動プログラムのみに焦点を当てて、ホリン（2008）は、RCTの実施が困難である可能性があり（例えば、RCTが「犯罪者をプログラムにランダムに割り当てる判決を下すこと」を必要とする場合）、したがって準実験的デザイン（英語版）による実験がまだ必要であると主張した^[117]。

教育

RCTはいくつかの教育的介入の評価に使用されてきた。1980年から2016年の間に、1,000件以上のRCTの報告が発表されている^[118]。例えば、2009年の研究では、260人の小学校教師の教室を、行動スクリーニング、教室介入、保護者訓練のプログラムを受けるグループと受けないグループにランダムに割り付け、その後生徒の行動と学業成績を測定した^[119]。2009年の別の研究では、678人の1年生の教室を、教室中心の介入、保護者中心の介入、または介入なしのグループにランダムに割り付け、19歳までの学業成果を追跡した^[120]。

批判

2018年の最も引用された10件のランダム化比較試験のレビューでは、背景特性の不十分な分布、盲検化の困難さが指摘され、ランダム化比較試験に内在する他の仮定とバイアスについて議論された。これらには、「ユニークな時期評価バイアス」、「背景特性は一定のままという仮定」、「平均治療効果の限界」、「個人レベルでの単純な治療の限界」、「すべての前提条件が完全に満たされているという仮定」、「定量的変数の限界」、「プラセボのみまたは従来の治療のみの限界」が含まれる^[121]。

出典

Loading content...

参考文献