相関係数(そうかんけいすう、英: correlation coefficient)とは、2つ以上のデータまたは確率変数の間にある関係の強弱を測る指標である[1][2]。
普通、単に相関係数といえばピアソンの積率相関係数を指す[3]。ピアソン積率相関係数の検定は偏差の正規分布を仮定する(パラメトリック)方法である[4]が、他にこのような仮定を置かないノンパラメトリックな方法として、スピアマンの順位相関係数、ケンドールの順位相関係数なども一般に用いられる[5][6]。
日本産業規格では、相関(そうかん:correlation)を、「二つの確率変数の分布法則の関係。多くの場合,線形関係の程度を指す。」と定義している[7]。
相関係数の一覧
相関係数には以下のものなどがある。
- ピアソンの積率相関係数
- 点双列相関係数
- 偏相関係数
- 級内相関係数
- 順位相関係数
- 分割表の連関係数
- ファイ係数
- クラメールのV
- ポリコリック相関係数
誤解や誤用
相関と因果の混同
ピアソンの積率相関係数は、あくまでも確率変数の間にある線形な関係の尺度に過ぎない[1][2]。また、確率変数間の因果関係を説明するものでもない。相関係数は順序尺度であり比尺度ではないので、例えば「相関係数が0.2と0.4であることから、後者は前者より2倍の相関がある」などと言うことはできない。
しばしば、相関があるという表現が、あたかも因果関係を示しているかのように誤解あるいは誤用される。
2つの変数(A,B)間に相関が見られる場合、偶然による相関を除けば、次の3つの可能性が想定される(相関と因果の違いに関する誤解・誤用において目立つのは、3番目の場合である)。
- AがBを発生させる
- BがAを発生させる
- 第3の変数CがAとBを発生させる(この場合、AとBの間に因果関係はなく擬似相関と呼ばれる)
因果的な効果の推定ににあたっては、単に相関を見るだけでは分からない。ジューディア・パール[8]やドナルド・ルービン[9]などによってまとめられてきた統計的因果推論などに則った調査研究を実施する必要がある。
相関係数と回帰係数の混同
相関分析とは2変数の間に線形関係があるかどうか、およびその強さについての分析であり、2つの変数の間に質的な区別を仮定しない。それに対し回帰分析とは、変数の間にどのような関係があるか(具体的な関数の形)についての分析であり、また説明変数によって目的変数を予測するのを目的としている。 初学者によく見られる勘違いとして、相関係数と回帰係数が取り違えて理解されることが多い。 また、回帰式を作ることは、あくまで予測モデルを立てることに過ぎず、回帰分析によって因果関係の推定が直接的にできるわけではない。
HARKing
また、多数のデータを比較したときに、たまたま相関係数が強く出た組み合わせの結果をもとに、事前の仮説を訂正して論文を書き上げる行為は、HARKingと呼ばれる。探索的研究としてではなく、仮説検証型の研究としてHARKingを行った論文を公表することは、偶然の結果を、あたかも強い意味がある結果であるかのように誤認させ、第一種や第二種の過誤をしてしまう可能性が高いため、研究の手続きとして大きな問題がある。
脚注
参考文献
関連項目
Wikiwand in your browser!
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.