Loading AI tools
重回帰モデルにおいて、説明変数の中に、相関係数が高い組み合わせがあること ウィキペディアから
統計学において、多重共線性(たじゅうきょうせんせい、英語: Multicollinearity、単に共線性とも略される)とは、重回帰モデルにおいて、説明変数の中に、相関係数が高い組み合わせがあることをいう(例: 体重とBMI)。重回帰分析の際、説明変数を増やすほど決定係数が高くなりやすいために、より多くの説明変数を入れ、多重共線性を起こす可能性がある[1]。このような状況では、モデルやデータの小さな変化に応じて、重回帰の係数推定値が不規則に変化しうる。多重共線性は、少なくともサンプルデータセット内では、全体としてのモデルの予測力または信頼性を低下させず、個々の予測変数に関する計算にのみ影響を与える。つまり、共線性予測変数を持つ多変量回帰モデルは、予測変数の全体がどれだけよく結果変数を予測するかを示すことができるが、個々の予測変数に関する有効な結果、またはどの予測変数が不要かに関しては有効な結果を与えないことも考えられる。
なお、最小二乗法(OLS)などの回帰分析の前提条件を説明する際、「多重共線性がない」という表現は、完全な多重共線性がないこと、すなわち予測変数間に正確な(非確率的な)線形関係がないことを意味する。このような場合、計画行列 はフルランクに満たないため、モーメント行列(能率行列) は可逆行列にならない。このような状況では、一般的な線形モデル や、 最小二乗法(OLS)による推定量 が存在しないことになる。
いずれにしても、多重共線性は計画行列の特性であって、基礎となる統計モデルの特性ではない。
共線性とは、2つの説明変数の間に直線的な関連性があることである。2つの変数の間に正確な線形関係がある場合、2つの変数は完全に共線性を持っている。例えば、 と は、すべての観測値 i について次のようになるようなパラメータ と が存在する場合、完全に共線性を持っていると言える。
多重共線性とは、重回帰モデルにおいて、2つ以上の説明変数が高い線形関係にある状況を指す。例えば、上の式のように、2つの独立変数の相関が 1 または -1 に等しい場合、完全な多重共線性があると言える。実際には、データセットで完全な多重共線性に直面することはほとんどない。より一般的には、2つ以上の独立変数の間に近似的な線形関係がある場合に、多重共線性の問題が発生する。
数学的には、ある変数の間に1つ以上の厳密な線形関係が存在する場合、その変数の集合は完全な多重共線性を持つ。例えば、次のような場合である。
ここで、 は定数であり、 は k番目の説明変数に関する i番目の観測値である。重回帰方程式
のパラメータの推定値を得ようとする過程を調べることで、多重共線性に起因する一つの問題を探ることができる。
最小二乗法(OLS)による推定では、行列 の逆行列を求めることになる。
ここで
は、N×(k+1) 行列で、N は観測値の数、k は説明変数の数である(N は k+1 以上であることが必要)。独立変数の間に厳密な線形関係(完全な多重共線性)がある場合、X の列の少なくとも1つは他の列の線形結合であり、したがって、X の(つまり XTX の)ランクは k+1 より小さくなり、行列 XTX は可逆ではない。
完全な多重共線性は、不要な情報を含む生のデータセットを扱う際によく見られる。しかし、いったん冗長性(重複や余分さ)を特定して除去しても、研究対象のシステムに固有である相関関係が原因で、近似的な多重共線性を持つ変数が残ることがしばしばある。このような場合には、上の式が成り立つ代わりに、誤差項 を加えた形で式が成り立つ。
この場合、変数の間に正確な線形関係はないが、 の分散が の値のいくつかのセットに対して小さい場合は、変数 はほぼ完全な多重共線性を持っている。この場合、行列 XTX は逆行列を持つものの、悪条件である。そのため、コンピュータのアルゴリズムが近似的な逆行列を計算できるかどうかは不明である。また、計算できたとしても、計算された逆行列は、データのわずかな変化(丸め誤差やサンプルされたデータポイントのわずかな変化の影響が大きくなるため)に非常に敏感で、非常に不正確であったり、サンプルに依存したりする可能性がある。
モデルに多重共線性が存在する可能性を示す指標には以下のものがある。
高度な多重共線性の結果として、たとえ行列 が可逆行列であっても、コンピュータ・アルゴリズムで近似逆行列を得られないかもしれない。また、逆行列を得たとしても数値的には不正確かもしれない。しかし、正確な 行列がある場合でも、次のような結果が生じる。
多重共線性がある場合、他の変数をコントロールしながら、ある変数の従属変数 への影響を推定することは、予測変数が互いに無相関の場合よりも精度が低くなる傾向がある。回帰係数の通常の解釈は、他の変数を一定に保ったまま、独立変数 を 1単位変化させたときの効果の推定値を提供するというものである。与えられたデータセットにおいて、 が別の独立変数 と高い相関がある場合、 と が特定の線形確率的関係を持つ観測値の組を持っている。 のすべての変化が の変化と独立であるような観測値の組はないので、 の独立した変化の効果の不正確な推定値を持っていることになる。
ある意味、共線的な変数は、従属変数に関する同じ情報を含んでいる。名目上「異なる」測定値が実際に同じ現象を定量化している場合、それらは冗長であると言える。あるいは、変数に異なる名前が付けられ、おそらく異なる数値測定尺度を使用しているが、互いに高い相関がある場合、それらは冗長性を持つことになる。
多重共線性の特徴の一つに、影響を受ける係数の標準誤差が大きくなる傾向がある。この場合、係数がゼロであるという仮説の検定では、説明変数の効果がないという誤った帰無仮説を棄却できず、第二種の過誤となることがある。
多重共線性の別の問題は、入力データの小さな変化がモデルの大きな変化につながり、パラメータ推定値の符号が変わることもあるということである[7]。
このようなデータの冗長性の主な危険性は、回帰分析モデルにおけるオーバーフィッティングである。最良の回帰モデルは、予測変数がそれぞれ従属(結果)変数と高い相関を持つが、せいぜい互いに最小の相関しか持たないものである。このようなモデルは、しばしば「低ノイズ」と呼ばれ、統計的にロバストである(つまり、同じ統計的母集団から抽出された変数セットの多数のサンプルにわたって信頼性の高い予測を行う)。
基本的な仕様が正しい限り、多重共線性は実際には結果を歪めることはなく、関連する独立変数に大きな標準誤差が生じるだけである。さらに重要なことは、回帰の通常の使用法は、モデルから係数を取り出して、それを他のデータに適用することである。多重共線性によって係数値の推定値が不正確になるため、結果として得られるサンプル外の予測値も不正確になる。また、新しいデータの多重共線性のパターンが、当てはめられたデータのパターンと異なる場合、このような外挿は予測に大きな誤差をもたらす可能性がある[9]。
多重共線性は、生存率の分析において深刻な問題を表す可能性がある。時間的に変化する共変量が研究の経過とともにその値を変化させうるからである。多重共線性の結果への影響を評価するために特別な手順が推奨される[13]。
様々な場面で、満期までの期間が異なる複数の金利が、貨幣やその他の金融資産の保有量や固定投資の支出量など、何らかの経済的意思決定に影響を与えているという仮説が立てられることがある。この場合、金利は一緒に動く傾向があるので、これらの様々な金利を含めると、一般的には多重共線性の問題が大きくなる。 実際、各金利が従属変数に対して個別の効果を持っている場合、その効果を分離することは非常に困難である。
「横方向の共線性(英: lateral collinearity)」という概念は、従来の多重共線性の考え方を発展させたもので、説明変数と基準変数(すなわち被説明変数)の間の共線性も含んでおり、これらは互いにほぼ同じものを測定している可能性があるという意味である[14]。
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.