メタアナリシス
複数の研究の結果を統合し、より高い見地から分析すること ウィキペディアから
メタアナリシス(英: Meta-analysis)とは、共通の研究課題に取り組む複数の独立した研究から得られた定量的データを統合する手法である。この手法の重要な部分は、全ての研究にわたる統合効果量を計算することを含む。メタ分析、メタ解析とも言う。このような統計的アプローチは、様々な研究から効果量と分散測定値を抽出することを含む。これらの効果量を組み合わせることで統計的検出力が向上し、個々の研究で見られる不確実性や不一致を解決することができる。メタアナリシスは、研究助成金の申請を支援し、治療ガイドラインを形成し、健康政策に影響を与える上で不可欠である。また、将来の研究を導くために既存の研究を要約する上でも重要な役割を果たし、それによってメタサイエンスの基本的な方法論としての地位を確立している。メタアナリシスは、多くの場合(ただし常にではない)システマティック・レビューの重要な構成要素となる。ランダム化比較試験(RCT)のメタアナリシスは、根拠に基づく医療 (EBM) において、最も質の高い根拠とされる[2]。メタアナリシスは科学的総合の重要な部分だが[3]、メタアナリシスを理解せずに結論を受け入れるのは危険である[4]。

(ニューヨーク州立大学作成[1])
メタアナリシスという言葉は、情報の収集から吟味解析までのシステマティック・レビューと同様に用いられることがある[5]。厳密に区別する場合、メタアナリシスはデータ解析の部分を指す[6][5]。また、メタアナリシスとシステマティックレビューをまとめてリサーチ・シンセシスとも言う。
歴史
「メタアナリシス」という用語は、1976年に統計学者ジーン・グラスによって造られた[7][8]。グラスは「メタアナリシスとは分析の分析を指す」と述べた[9]。グラスの研究は、関係性と効果の集約的な測定を記述することを目的としていた[10]。グラスは最初の現代的なメタアナリシスの著者として認められているが、1904年に統計学者カール・ピアソンが『ブリティッシュ・メディカル・ジャーナル』に発表した論文[11]は、腸チフスの予防接種に関する複数の研究のデータを照合したもので、複数の臨床研究の結果を集約するためにメタアナリシス的なアプローチが使用された最初の例とされている[12][13]。職業適性検査[14][15]や農業[16]など、初期のメタアナリシスの例は他にも多数見られる。
最初のメタアナリシスのモデルは、1978年にメアリー・リー・スミスとジーン・グラスによって心理療法の効果に関して発表された[8][17]。彼らの論文が発表された後、エビデンス統合のツールとしてのメタアナリシスの有用性と妥当性に対する反発があった。その最初の例はハンス・アイゼンクによるもので、1978年の論文でメアリー・リー・スミスとジーン・グラスの研究に対してメタアナリシスを「壮大な愚行」と呼んだ[18][19]。後にアイゼンクはメタアナリシスを「統計的錬金術」と呼ぶことになる[20]。これらの批判にもかかわらず、メタアナリシスの使用は現代的な導入以来、成長を続けてきた。1991年までに334件のメタアナリシスが発表され[19]、この数は2014年までに9,135件に増加した[7][21]。
メタアナリシスの分野は1970年代以降大きく拡大し、心理学、医学、生態学など複数の分野に及んでいる[7]。さらに、最近のエビデンス統合コミュニティの創設により、分野を超えたアイデア、方法、ソフトウェアツールの相互交流が増加している[22][23][24]。
文献検索
要約
視点
メタアナリシスの最も重要なステップの1つはデータ収集である。効率的なデータベース検索のために、適切なキーワードと検索制限を特定する必要がある[25]。ブール演算子と検索制限の使用は文献検索を支援することができる[26][27]。多くのデータベース(例:PubMed、Embase、PsychInfo)が利用可能だが、研究分野に最も適切な情報源を選択するのは研究者次第である[28]。実際、多くの科学者は複数の情報源をカバーするために2つ以上のデータベース内で重複した検索用語を使用している[29]。適格な研究の参考文献リストも、適格な研究を探すために検索することができる(スノーボーリングとして知られる)[30]。初期検索では大量の研究が返される場合がある[30]。多くの場合、原稿の要約やタイトルから、事前に指定された基準に基づいて研究が包含対象として適格でないことが判明する[28]。これらの研究は破棄することができる。しかし、研究が適格である可能性がある場合(あるいは疑問がある場合でも)、論文全体をより詳細な検査のために保持することができる。適格な論文の参考文献リストも、関連する論文がないか検索することができる[29][31]。これらの検索結果はPRIMSAフローダイアグラムに詳細に記載する必要がある[32]。このダイアグラムはレビューのすべての段階を通じた情報の流れを詳細に示すものである。そのため、指定された検索用語を使用した後に何件の研究が返され、それらの研究のうち何件が、どのような理由で破棄されたかを記録することが重要である[28]。検索用語と戦略は、読者が検索を再現できるように具体的でなければならない[33]。研究の日付範囲と、検索が実施された日付(または日付期間)も提供されるべきである[34]。
データ収集フォームは、適格な研究からデータを収集するための標準化された手段を提供する[35]。相関データのメタアナリシスでは、効果量の情報は通常ピアソンのr統計量として収集される[36][37]。研究では偏相関がしばしば報告されるが、これらはゼロ次相関と比較して関係を誇張する可能性がある[38]。さらに、部分的に除外された変数は研究ごとに異なる可能性が高い。結果として、多くのメタアナリシスでは偏相関を分析から除外している[28]。最後の手段として、散布図からデータポイントを抽出してピアソンのrを計算するために、プロット・デジタイザーを使用することができる[39][40]。参加者の平均年齢など、効果を調整する可能性のある重要な研究特性を報告するデータも収集すべきである[41]。各研究からのエビデンスの質を評価するために、研究の質の尺度もこれらのフォームに含めることができる[42]。観察研究の質とバイアスのリスクを評価するために利用可能なツールは80以上あり、分野間の研究アプローチの多様性を反映している[42][43][44]。これらのツールには通常、従属変数の測定方法、参加者の適切な選択、交絡因子の適切な制御の評価が含まれる。相関研究により関連性が高い可能性のある他の質的尺度には、サンプルサイズ、心理測定的特性、方法の報告が含まれる[28]。
グレー文献を含めるかどうかが最後の考慮事項である[45]。グレー文献は、正式に出版されていない研究として定義される[46]。この種の文献には、学会抄録[47]、学位論文[48]、プレプリント[49]が含まれる。グレー文献を含めることで出版バイアスのリスクは減少するが、研究の方法論的質は正式に出版された研究よりも(常にではないが)低いことが多い[50][51]。グレー文献の最も一般的な情報源である学会proceedings[52]からの報告は、報告が不十分であり[53]、後続の出版物のデータと一致しないことが多く、出版された研究の約20%で差異が観察されている[54]。
方法と仮定
要約
視点
アプローチ
一般的に、メタアナリシスを実施する際には、個別参加者データ(IPD)と集計データ(AD)の2種類のエビデンスを区別することができる[55]。集計データは直接的または間接的なものとなる。
ADはより一般的に入手可能で(例:文献から)、通常オッズ比[56]や相対リスク[57]などの要約推定値を表す。これは、概念的に類似した研究間で複数のアプローチを用いて直接統合することができる。一方、間接的な集計データは、別々のメタアナリシスで同様の対照群と比較された2つの治療の効果を測定する。例えば、治療AとBがそれぞれプラセボと直接比較された場合、これら2つのプール結果を用いて、AとBの効果の間接比較の推定値を、プラセボに対するA効果からプラセボに対するB効果を引くことで得ることができる。
IPDエビデンスは、研究センターによって収集された生データを表す。この区別により、エビデンス統合が望まれる場合には異なるメタアナリシス手法が必要となり、1段階法と2段階法の開発につながっている[58]。1段階法では、研究内の参加者のクラスタリングを考慮しながら、全研究のIPDを同時にモデル化する。2段階法では、まず各研究のADの要約統計量を計算し、次に研究統計量の加重平均として全体の統計量を計算する。IPDをADに縮約することで、IPDが利用可能な場合でも2段階法を適用できる。これにより、メタアナリシスを実行する際の魅力的な選択肢となる。1段階法と2段階法は同様の結果をもたらすと従来考えられているが、最近の研究では、時として異なる結論に至る可能性があることが示されている[59][60]。
統計モデルの集計データ
固定効果モデル

固定効果モデルは、一連の研究推定値の加重平均を提供する[61]。推定値の分散の逆数が一般的に研究の重みとして使用され、大規模な研究は小規模な研究よりも加重平均に大きく寄与する傾向がある[62]。結果として、メタアナリシス内の研究が非常に大規模な研究に支配されている場合、小規模な研究の知見は実質的に無視される[63]。最も重要なのは、固定効果モデルは、含まれるすべての研究が同じ母集団を調査し、同じ変数と結果の定義を使用していることなどを前提としている[64]。この仮定は通常非現実的であり、研究は多くの場合、複数の異質性の原因の影響を受けやすい[65][66]。
独立した効果量推定値の集合から始める場合、各推定値に対応する効果量を想定すると、と仮定できる。ここで、は番目の研究で観察された効果、は対応する(未知の)真の効果、はサンプリング誤差、である。したがって、は、対応する真の効果の不偏で正規分布に従う推定値であると仮定される。サンプリング分散(すなわち値)は既知であると仮定される[67]。
ランダム効果モデル
ほとんどのメタアナリシスは、その方法や含まれるサンプルの特徴が完全に同一ではない研究の集合に基づいている[67]。方法とサンプル特性の違いは、真の効果の間に変動性(「異質性」)をもたらす可能性がある[67][68]。異質性をモデル化する1つの方法は、それを純粋にランダムとして扱うことである。ランダム効果メタアナリシスで加重平均を行う際の重みづけは、2つのステップで実現される[69]:
- ステップ1:分散の逆数による重みづけ
- ステップ2:基礎となる研究の効果量の変動性から単純に導出されたランダム効果分散成分(REVC)を適用することによる、この分散の逆数による重みづけの解除
これは、効果量のこの変動性(異質性としても知られる)が大きいほど、重みづけの解除が大きくなることを意味し、これはランダム効果メタアナリシスの結果が単に研究間の効果量の非加重平均となる点に達する可能性がある。反対の極端な場合、すべての効果量が類似している(または変動性がサンプリング誤差を超えない)場合、REVCは適用されず、ランダム効果メタアナリシスは単純に固定効果メタアナリシス(分散の逆数による重みづけのみ)にデフォルトとなる。
この反転の程度は、以下の2つの要因にのみ依存する[70]:
- 精度の異質性
- 効果量の異質性
これらの要因のいずれも自動的に欠陥のある大規模研究やより信頼できる小規模研究を示すものではないため、このモデルの下での重みの再分配は、これらの研究が実際に提供できるものとは関係を持たない。実際、重みの再分配は、異質性が増加するにつれて大規模研究から小規模研究へと一方向にのみ行われ、最終的にすべての研究が等しい重みを持ち、それ以上の再分配が不可能になることが実証されている[70]。
ランダム効果モデルのもう1つの問題は、最も一般的に使用される信頼区間が、指定された名目レベルを超える被覆確率を一般的に維持せず、したがって統計的誤差を実質的に過小評価し、その結論において潜在的に過度に自信を持っている可能性があることである[71][72]。いくつかの修正が提案されているが[73][74]、議論は続いている[72][75]。さらなる懸念は、平均治療効果が時として固定効果モデルと比較してさらに保守的でない可能性があり[76]、したがって実践において誤解を招く可能性があることである。提案されている1つの解釈的な修正は、実践における可能な効果の範囲を描写するために、ランダム効果推定値の周りに予測区間を作成することである[77]。しかし、そのような予測区間の計算の背後にある仮定は、試験が多かれ少なかれ同質な実体とみなされ、含まれる患者集団と比較治療が交換可能とみなされるべきであるということであり[78]、これは実践においては通常達成不可能である。
研究間分散を推定するには多くの方法があり、制限付き最尤推定量が最もバイアスが少なく、最も一般的に使用される方法の1つである[79]。最尤法と制限付き最尤法の両方を含む研究間分散を計算するための高度な反復技法が複数存在し、これらの方法を使用したランダム効果モデルは、Excel[80]、Stata[81]、SPSS[82]、R[67]を含む複数のソフトウェアプラットフォームで実行できる。
ほとんどのメタアナリシスは2から4つの研究を含んでおり、このようなサンプルは異質性を正確に推定するには不十分なことが多い。したがって、小規模なメタアナリシスでは、不正確なゼロの研究間分散推定値が得られ、誤った同質性の仮定につながることになる。全体として、メタアナリシスでは異質性が一貫して過小評価されているように見え、高い異質性レベルを仮定した感度分析が有益である可能性がある[83]。上述のこれらのランダム効果モデルとソフトウェアパッケージは、研究集計メタアナリシスに関連しており、個別患者データ(IPD)メタアナリシスを実施したい研究者は混合効果モデリングアプローチを考慮する必要がある[84]。
質的効果モデル
ドイとタリブが最初に質的効果モデルを導入した[85]。彼ら[86]は、各研究に対する重みを生成するために任意の固定効果メタアナリシスモデルで使用されるランダム誤差による分散の寄与に加えて、関連する成分(質)による分散の寄与を組み込むことによって、研究間の変動性の調整に対する新しいアプローチを導入した。質的効果メタアナリシスの強みは、主観的なランダム効果の代わりに利用可能な方法論的エビデンスを使用できることであり、それによって臨床研究における方法論と統計の間に開いた有害なギャップを埋めることができる。これを行うために、逆分散の重みを調整するために質的情報に基づく合成バイアス分散が計算され、i番目の研究の質調整済み重みが導入される[85]。これらの調整済み重みはメタアナリシスで使用される。言い換えれば、研究iが良質で他の研究が質の悪い場合、それらの質調整済み重みの一部が数学的に研究iに再分配され、全体の効果量に向けてより大きな重みが与えられる。研究の質が類似してくるにつれて、再分配は徐々に減少し、すべての研究が同等の質である場合(同等の質の場合、質的効果モデルはIVhetモデルにデフォルトとなる - 前のセクションを参照)に停止する。質的効果モデル(いくつかの更新を含む)の最近の評価では、質的評価の主観性にもかかわらず、その性能(シミュレーション下でのMSEと真の分散)はランダム効果モデルで達成可能な性能よりも優れていることを示している[87][88]。このモデルは、文献に存在する維持できない解釈に取って代わり、このメソッドをさらに探索するためのソフトウェアが利用可能である[89]。
ネットワークメタアナリシス手法

間接比較メタアナリシス手法(特に複数の治療が同時に評価される場合はネットワークメタアナリシスとも呼ばれる)は、一般的に2つの主要な方法論を使用する[90][91]。第一に、ブッヒャー法[92]があり、これは3つの治療の閉ループの単一または反復比較で、その1つが2つの研究に共通であり、ループが始まり終わるノードを形成する。したがって、複数の治療を比較するには、複数の2対2比較(3治療ループ)が必要となる。この方法論では、2つの独立したペアワイズ比較が必要なため、2つ以上のアームを持つ試験では2つのアームのみを選択する必要がある。代替的な方法論は、複雑な統計モデルを使用して、複数のアーム試験と競合するすべての治療間の比較を同時に含める。これらはベイズ法、混合線形モデル、メタ回帰アプローチを用いて実行されている。
ベイズフレームワーク
ベイズネットワークメタアナリシスモデルの指定には、WinBUGSなどの汎用マルコフ連鎖モンテカルロ法(MCMC)ソフトウェアのための有向非巡回グラフ(DAG)モデルを記述することが含まれる[93]。さらに、いくつかのパラメータに対する事前分布を指定し、データを特定の形式で提供する必要がある[93]。DAG、事前分布、データは一緒にベイズ階層モデルを形成する。さらに問題を複雑にするのは、MCMC推定の性質上、収束を評価できるように複数の独立した連鎖に対して過分散の初期値を選択する必要があることである[94]。最近、モデル適合を単純化するために複数のR言語ソフトウェアパッケージが開発され(例:metaBMA[95]とRoBMA[96])、さらにグラフィカルユーザインタフェース(GUI)を持つ統計ソフトウェアであるJASPにも実装された。ベイズアプローチの複雑さはこの方法論の使用を制限するが、最近のチュートリアル論文はこれらの方法のアクセシビリティを高めようとしている[97][98]。この方法の自動化のための方法論が提案されている[93]が、アームレベルの結果データが利用可能である必要があり、これは通常利用できない。ベイズフレームワークのネットワークメタアナリシスを扱う固有の能力とその柔軟性について、時として大きな主張がなされる。しかし、ベイズ派か頻度論派かという推論のフレームワークの選択は、効果のモデリングに関する他の選択よりも重要性が低い可能性がある[99](上記のモデルに関する議論を参照)。
頻度論的多変量フレームワーク
一方、頻度論的多変量法は、方法が適用される際に明示的に述べられていないか、検証されていない近似と仮定を伴う(上記のメタアナリシスモデルに関する議論を参照)。例えば、StataのmvmetaパッケージはCBBには頻度論的フレームワークでのネットワークメタアナリシスを可能にする[100]。しかし、ネットワークに共通の比較対照がない場合、高分散を持つ仮想的なアームでデータセットを増強する必要があり、これは客観的ではなく、何が十分に高い分散を構成するかについての決定を必要とする[93]。もう1つの問題は、この頻度論的フレームワークとベイズフレームワークの両方におけるランダム効果モデルの使用である。セン(Senn)は、1つのランダム効果しか許可されていないが多くのランダム効果を想定できるため、「ランダム効果」分析の解釈に注意するよう分析者に助言している[99]。センはさらに、2つの治療法を比較する場合でさえ、ランダム効果分析が試験から試験への効果の変動方法に関するすべての不確実性を説明すると仮定するのは素朴すぎると述べている。上記で議論されたようなメタアナリシスの新しいモデルは、確かにこの状況を緩和するのに役立ち、次のフレームワークで実装されている。
一般化ペアワイズモデリングフレームワーク
1990年代後半から試みられてきたアプローチは、3つの治療法による閉ループ分析の実装である。これは、ネットワークの複雑さが増すにつれてプロセスが急速に圧倒的になるため、人気がなかった。この分野での開発は、その後放棄され、代替案として登場したベイズ法と多変量頻度論的方法が優先された。最近、一部の研究者によって、複雑なネットワークに対する3つの治療法による閉ループ法の自動化が開発された[80]。これは、この方法論を主流の研究コミュニティが利用できるようにする方法として開発された。この提案は各試験を2つの介入に制限するが、複数のアーム試験に対するワークアラウンドも導入している:異なる実行で異なる固定制御ノードを選択できる。また、上記で指摘された多くの問題を回避するために、堅牢なメタアナリシス手法も利用している。このフレームワークの周りでさらなる研究が必要であり、これが実際にベイズ法または多変量頻度論的フレームワークよりも優れているかどうかを判断する必要がある。これを試してみたい研究者は、無料のソフトウェアを通じてこのフレームワークにアクセスできる[89]。
テーラードメタアナリシス
追加情報の別の形式は、意図された設定から得られる。メタアナリシス結果を適用するターゲット設定が既知の場合、その設定からのデータを使用して結果を調整し、'テーラードメタアナリシス'を作成することが可能である[101][102]。これは検査精度のメタアナリシスで使用されており、検査陽性率と有病率の経験的知識を使用して、「適用可能領域」として知られる受信者操作特性(ROC)空間の領域を導出するために使用されている。その後、この領域との比較に基づいてターゲット設定のための研究が選択され、集約されてターゲット設定に合わせた要約推定値が作成される。
IPDとADの集約
メタアナリシスは、IPDとADを組み合わせるためにも適用できる。これは、分析を実施する研究者が自身の生データを持っており、文献から集計データまたは要約データを収集する場合に便利である。一般化統合モデル(GIM)[103]はメタアナリシスの一般化である。個別参加者データ(IPD)に適合されたモデルが、集計データ(AD)を計算するために使用されたモデルとは異なることを許容する。GIMは、より柔軟に情報を統合するためのモデルキャリブレーション方法とみなすことができる。
メタアナリシス結果の妥当性検証
メタアナリシスの推定値は研究全体の加重平均を表すが、異質性がある場合、要約推定値が個々の研究を代表していない可能性がある。確立されたツールを使用した一次研究の質的評価は潜在的なバイアスを明らかにすることができるが[104][105]、要約推定値に対するこれらのバイアスの総合的な効果を定量化することはない。メタアナリシスの結果は独立した前向きの一次研究と比較することができるが、そのような外部検証は多くの場合実用的ではない。これにより、交差検証の一形態を利用する方法の開発が促進され、時には内部-外部交差検証(IOCV)と呼ばれる[106]。ここでは、含まれるk個の研究のそれぞれを順番に除外し、残りのk-1個の研究を集約して得られた要約推定値と比較する。メタアナリシス結果の統計的妥当性を測定するために、IOCVに基づく一般的な検証統計量、Vnが開発されている[107]。検査精度と予測、特に多変量効果がある場合、予測誤差を推定しようとする他のアプローチも提案されている[108]。
課題
要約
視点
複数の小規模研究のメタアナリシスは、必ずしも単一の大規模研究の結果を予測するとは限らない[109]。一部の研究者は、この方法の弱点として、バイアスの原因がこの方法によって制御されないことを指摘している:優れたメタアナリシスでも、元の研究の貧弱な設計やバイアスを修正することはできない[110]。これは、「最良のエビデンス統合」と呼ばれる実践として、方法論的に健全な研究のみをメタアナリシスに含めるべきであることを意味する[110]。他のメタアナリストは、より弱い研究も含め、研究の方法論的質を反映する研究レベルの予測変数を追加して、研究の質が効果量に与える影響を検討することを提案している[111]。しかし、研究サンプルの分散に関する情報を保持し、可能な限り広範なネットを投げかけることが、より良いアプローチであり、方法論的な選択基準は望ましくない主観性を導入し、このアプローチの目的を損なうと主張する者もいる[112]。最近では、科学におけるオープンな実践の推進の影響の下、科学者のコミュニティによって更新される「クラウドソース型」のリビングメタアナリシスを開発するツールが開発されている[113][114]。これはすべての主観的な選択をより明示的にすることを期待してのことである。
出版バイアス:ファイルドロワー問題


もう1つの潜在的な落とし穴は、公表された研究の利用可能な本体への依存であり、これは出版バイアスにより誇張された結果を生む可能性がある[115]。陰性結果や有意でない結果を示す研究は公表される可能性が低いためである[116]。例えば、製薬会社は陰性の研究を隠蔽することが知られており[117]、研究者は出版に至らなかった学位論文研究や学会抄録などの未公表の研究を見落としている可能性がある[118]。これは簡単には解決できない。なぜなら、何件の研究が未報告のままであるかを知ることができないためである[119][120]。
この出版バイアスであるファイルドロワー問題は、陰性または非有意な結果が引き出しにしまい込まれることによって特徴付けられ、効果量の偏った分布をもたらす可能性があり、その結果、他の研究が公表のために提出されなかったか拒否されたため、公表された研究の有意性が過大評価されるという深刻な基準率の誤謬を生む可能性がある。これはメタアナリシスの結果を解釈する際に真剣に考慮されるべきである[119][121]。
効果量の分布はファンネルプロットで視覚化することができ、(最も一般的なバージョンでは)標準誤差と効果量の散布図である[122]。小規模な研究(したがって標準誤差が大きい)は効果の大きさのばらつきが大きく(精度が低い)、大規模な研究はばらつきが小さくファンネルの先端を形成するという事実を利用している。多くの陰性の研究が公表されなかった場合、残りの陽性の研究は、底部が一方に歪んだ(ファンネルプロットの非対称性)ファンネルプロットを生じさせる。対照的に、出版バイアスがない場合、小規模な研究の効果が一方に歪む理由はないため、対称的なファンネルプロットが得られる。これはまた、出版バイアスが存在しない場合、標準誤差と効果量の間に関係がないことを意味する[123]。標準誤差と効果量の間に負または正の関係があることは、一方向の効果を見出した小規模な研究の方が公表されやすく、公表のために提出されやすかったことを示唆する。
視覚的なファンネルプロットとは別に、出版バイアスを検出するための統計的手法も提案されている[120]。これらは通常バイアスの検出力が低いため、また特定の状況下で偽陽性を生む可能性があるため、議論の的となっている[124]。例えば、小規模研究効果(偏った小規模研究)では、小規模研究と大規模研究の間に方法論的な違いが存在し、出版バイアスに似た効果量の非対称性を引き起こす可能性がある。しかし、小規模研究効果はメタアナリシスの解釈にとって同様に問題となる可能性があり、メタアナリシスの著者はバイアスの潜在的な原因を調査する必要がある[125]。
出版バイアスの問題は些細なものではなく、心理科学におけるメタアナリシスの25%が出版バイアスの影響を受けている可能性があることが示唆されている[126]。しかし、既存の検定の検出力の低さとファンネルプロットの視覚的な外観の問題は依然として課題であり、出版バイアスの推定値は実際に存在するものよりも低いままである可能性がある。
出版バイアスに関するほとんどの議論は、統計的に有意な知見の公表を好む学術誌の慣行に焦点を当てている。しかし、有意性が達成されるまで統計モデルを再構築するなどの疑わしい研究慣行も、研究者の仮説を支持する統計的に有意な知見を好む可能性がある[127][128]。
統計的に有意でない効果を報告しない研究に関する問題
研究は、効果が統計的有意性に達しない場合、その効果を報告しないことが多い[129]。例えば、他の情報(統計量やp値など)を報告せずに、単にグループ間に統計的に有意な差がなかったと述べるだけかもしれない[130]。これらの研究を除外すると出版バイアスと同様の状況になるが、(帰無効果を仮定して)これらを含めることもメタアナリシスにバイアスをもたらす。
統計的アプローチに関する問題
固定効果、IVhet、ランダム効果、または質的効果モデルのどれが統計的に最も正確な結果を組み合わせる方法であるかは決定されていないという弱点があり、新しいランダム効果(メタアナリシスで使用される)が本質的に平滑化または縮小を促進するための形式的な装置であり、予測が不可能または不適切である可能性があるという認識のため、ランダム効果モデルに対する批判が高まっている[131]。ランダム効果アプローチの主な問題は、研究間の異質性が大きい場合は自然な重み付け推定量に近く、研究間の異質性が小さい場合は分散の逆数による重み付け推定量に近い「妥協推定量」を生成するという古典的な統計的思考を使用することである。しかし、与えられたデータセットを分析するために「我々が選択する」モデルと、データが生成される「メカニズム」との区別が無視されてきた[132]。ランダム効果はこれらの役割のいずれにも存在する可能性があるが、2つの役割は全く異なる。分析モデルとデータ生成メカニズム(モデル)が形式的に類似していると考える理由はないが、統計学の多くの分野では、理論とシミュレーションのために、データ生成メカニズム(モデル)が我々が選択する(または他者に選択してほしい)分析モデルと同一であると仮定する習慣が発展してきた。データを生成するための仮定されたメカニズムとして、メタアナリシスのランダム効果モデルは愚かであり、このモデルを表面的な記述として考え、分析ツールとして選択するものとして考えるのがより適切である - しかし、研究効果はそれぞれのメタアナリシスの固定的な特徴であり、確率分布は単なる記述的なツールに過ぎないため、メタアナリシスのためのこの選択は機能しない可能性がある[132]。
議題主導のバイアスから生じる問題
メタアナリシスにおける最も深刻な欠陥は、メタアナリシスを行う人物が経済的、社会問題的、または政治的な議題(立法の可決や否決など)を持っている場合に最も頻繁に発生する[133]。このような種類の議題を持つ人々は、個人的な思い込みのためにメタアナリシスを乱用する可能性が高くなる。例えば、著者の議題に好意的な研究者の研究はチェリー・ピッキングされる可能性が高く、好意的でない研究は無視されるか「信頼できない」とレッテルを貼られる。さらに、好まれる著者自身が、小規模な好ましいデータセットを選択し、より大規模な好ましくないデータセットを組み込まないなど、全体的な政治的、社会的、または経済的目標を支持する結果を生み出すように偏向しているか、支払いを受けている可能性がある。メタアナリシスの方法論は非常に柔軟であるため、そのような偏向が結果に影響を与える可能性がある[134]。
医学的メタアナリシスに使用される基礎研究における潜在的な利益相反を開示するために2011年に行われた研究では、29のメタアナリシスを調査し、メタアナリシスの基礎となる研究における利益相反がほとんど開示されていないことを発見した。29のメタアナリシスには、一般医学雑誌から11件、専門医学雑誌から15件、コクラン系統的レビューデータベースから3件が含まれていた。29のメタアナリシスは合計509件のランダム化比較試験(RCT)をレビューした。このうち318件のRCTが資金源を報告し、219件(69%)が産業界から資金を受けていた(すなわち、1人以上の著者が製薬産業との財務的つながりを持っていた)。509件のRCTのうち、132件が著者の利益相反開示を報告し、91件の研究(69%)が1人以上の著者が産業界との財務的つながりを持っていることを開示した。しかし、この情報はメタアナリシスにほとんど反映されていなかった。RCTの資金源を報告したのは2件(7%)のみで、RCTの著者と産業界のつながりを報告したものはなかった。著者らは「メタアナリシスに含まれるRCTの産業界からの資金提供や著者の産業界との財務的つながりによるCOIの認識がなければ、メタアナリシスからのエビデンスに対する読者の理解と評価が損なわれる可能性がある」と結論付けた[135]。
例えば、1998年、米国の連邦裁判官は、アメリカ合衆国アメリカ合衆国環境保護庁が、禁煙職場法を可決させるために政策立案者に影響を与えることを意図して、環境たばこ煙(ETS)から非喫煙者へのがんリスクを主張する研究を作成するためにメタアナリシスのプロセスを乱用したと判断した[136][137][138]。
含まれる研究の比較可能性と妥当性
メタアナリシスは、特に生物科学において、十分な検出力を持つ一次研究の代替とはならないことが多い[139]。
使用される方法の異質性は、誤った結論につながる可能性がある[140]。例えば、介入の形態やコホートの違いが小さいと考えられる場合や科学者に知られていない場合でも、メタアナリシスの結果を歪めたり、そのデータで十分に考慮されていない結果につながる可能性がある。逆に、メタアナリシスの結果は、特定の仮説や介入を実行不可能に見せ、さらなる研究や承認を妨げる可能性があり、間欠的な投与、オーダメイド医療の基準、併用療法などの修正が、実質的に異なる結果をもたらす場合でも、そうなる可能性がある。これには、メタアナリシスで考慮された小規模研究で成功裏に特定され適用された場合も含まれる。標準化、実験の再現性、オープンサイエンスのデータとプロトコルは、関連する要因や基準が不明であったり記録されていない可能性があるため、このような問題を軽減できないことが多い。
できるだけ少ない動物や人間でテストを行うことと、堅牢で信頼できる知見を得る必要性との間の適切なバランスについて議論がある。信頼性の低い研究は非効率的で無駄であり、研究は遅すぎるときだけでなく早すぎるときも無駄になるという主張がある。大規模な臨床試験では、参加者のテストに相当な費用や潜在的な害が伴う場合、計画的な逐次解析が使用されることがある[141]。応用科学的な行動科学では、別々のチームによって学際的に設計された多くの異なる介入の有効性を調査するために「メガスタディ」が提案されている[142]。そのような研究の1つは、フィットネスチェーンを使用して多数の参加者を募集した。行動介入は、「異なる科学者が異なる結果を用いて異なる時間間隔で異なるサンプルで異なる介入アイデアをテストする」ため、比較が難しいことが多く、そのような個々の調査の比較可能性の欠如が「政策に情報を提供する」可能性を制限していることが示唆されている[142]。
弱い包含基準が誤解を招く結論につながる
教育におけるメタアナリシスは、含める研究の方法論的質に関して十分に制限的でないことが多い。例えば、小規模なサンプルや研究者が作成した測定を含む研究は、効果量の推定値を過大評価する[143]。しかし、この問題は臨床試験のメタアナリシスも悩ませている。異なる品質評価ツール(QAT)の使用は、異なる研究を含め、平均治療効果の相反する推定値を得ることにつながる[144][145]。
現代科学での応用
要約
視点

現代の統計的メタアナリシスは、単に加重平均を用いて一連の研究の効果量を組み合わせるだけではない。研究の結果が、異なる数の研究参加者のサンプリングによって予想される変動以上の変動を示すかどうかをテストすることができる。さらに、使用された測定器具、サンプリングされた母集団、または研究デザインの側面などの研究特性をコード化し、推定量の分散を減少させるために使用することができる(上記の統計モデルを参照)。したがって、研究におけるいくつかの方法論的弱点は統計的に修正することができる。メタアナリシス手法の他の用途には、臨床予測モデルの開発と検証が含まれ、メタアナリシスは異なる研究センターからの個別参加者データを組み合わせ、モデルの一般化可能性を評価するために使用される可能性がある[146][147]、あるいは既存の予測モデルを集約することさえできる[148]。
メタアナリシスは、グループ研究デザインと同様に単一対象デザインでも行うことができる[149]。これは、多くの研究が単一対象研究デザインで行われてきたため重要である[150]。単一対象研究に最も適切なメタアナリシス技法については、かなりの議論が存在する[151]。
メタアナリシスは、単一の研究から複数の研究への重点の移行をもたらす。個々の研究の統計的有意性ではなく、効果量の実践的重要性を強調する。この思考の変化は「メタアナリシス的思考」と呼ばれている。メタアナリシスの結果は、しばしばフォレストプロットで示される。
研究結果は異なるアプローチを用いて組み合わされる。医療研究のメタアナリシスでよく使用されるアプローチの1つは、'分散の逆数法'と呼ばれる。すべての研究にわたる平均効果量は、各研究の効果推定量の分散の逆数に等しい重みを持つ加重平均として計算される。より大規模な研究とランダムな変動が少ない研究には、より小規模な研究よりも大きな重みが与えられる。他の一般的なアプローチには、マンテル・ヘンツェル法[152]とピート法[153]がある。
シード・ベースドDマッピング(以前は符号付き差分マッピング、SDM)は、fMRI、VBM、PETなどの神経画像技法を使用した脳活動や構造の差異に関する研究をメタアナリシスするための統計的手法である。
DNAマイクロアレイなどの異なるハイスループット技術が遺伝子発現を理解するために使用されてきた。MiRNA発現プロファイルは、特定の細胞や組織の種類、疾患状態での差次的に発現するマイクロRNAを同定したり、処置の効果を確認したりするために使用されてきた。このような発現プロファイルのメタアナリシスは、新しい結論を導き出し、既知の知見を検証するために実施された[154]。
全ゲノムシークエンシング研究のメタアナリシスは、複雑な表現型に関連する稀少なバリアントを発見するための大規模なサンプルサイズを収集する問題に対する魅力的な解決策を提供する。バイオバンク規模のコホートにおいて、要約統計量の効率的な保存アプローチを用いて、機能的に情報を得た稀少なバリアント関連メタアナリシスを可能にするいくつかの方法が開発されている[155]。
包括的なメタアナリシスは、効果のネットワークを推定するためにも使用できる。これにより研究者は、より正確に推定された結果の全体像におけるパターンを検討し、より広い文脈を考慮した結論を導き出すことができる(例:パーソナリティと知能の関係が特性群によってどのように変化するか)[156]。
出典
参考文献
関連項目
外部リンク
Wikiwand - on
Seamless Wikipedia browsing. On steroids.