決定係数(、英: coefficient of determination、R2)は、統計学において、独立変数(説明変数)が従属変数(目的変数)のどれくらいを説明できるかを表す値である。寄与率と呼ばれることもある。標本値から求めた回帰方程式(モデル)のあてはまりの良さの尺度として利用される。
一般的な定義
決定係数 のはっきりと合意された定義は無い。タロル・クヴォルセス[1]によれば、8種類の定義があり注意が必要だとしている[2]。
しかし、以下の式を定義とするのが一般的なようである。標本値(実測値、観測値)を 、回帰方程式による推定値を とする。
すなわち、残差の二乗和を標本値の平均値 からの偏差の二乗和で割ったものを1から引いた値であり、1に近い程相対的な残差が少ないことを表す。最小二乗法はこの定義を最大にするようなパラメータの選択法である。値域は1以下の実数。よく見かける値は0~1のあたり。
回帰方程式が最小二乗法による単回帰の回帰直線の場合は、決定係数はピアソンの積率相関係数の2乗になり、0以上1以下の実数になる。
なお、一般的な線形回帰の場合、以下の各式が等価であり、それらを定義式とすることもあるようである。
- 推定値の分散を標本値の分散で割ったもの
- 標本値と推定値との相関係数の2乗
線形回帰以外の場合、原点を通ることを要求した場合、最小二乗法以外で回帰した場合はこれらの式は上の定義と等価になるとは限らないため、注意が必要である。
クヴォルセスによる8つの定義
クヴォルセスによる8つの定義は以下の通りである。
上の決定係数の定義は説明変数を多くとるほど、良くなる傾向を持ってしまう。そのため、説明変数の数を 、標本の大きさ(標本数ではない)を として、以下の自由度調整を行うことがあり、自由度調整済みの決定係数[5]と呼ぶ。
なお、「説明変数の数」としているが、線形回帰でない場合、たとえば、同じ説明変数に対し2乗の項や3乗の項も利用する場合は、その分の調整も必要になる。定数項をのぞいたパラメータの数といっても良い。
Tarald O. Kvalseth: "Cautionary Note about R2", The American Statistician
Vol. 39, No. 4, Part 1 (Nov., 1985), pp. 279-285 (プレビュー)
英: squared multiple correlation coefficient between the regressand and the regressors
英: squared correlation coefficient between and