正則化

統計および機械学習において、正則化はモデルのパラメータの学習に使われ、特に過学習を防ぎ、汎化能力を高めるために使われる。

機械学習において最も一般的なのは L1 正則化 (p=1) と L2 正則化 (p=2) である。損失関数 $E({\boldsymbol {w}})$ の代わりに、

E({\boldsymbol {w}})+\lambda {\frac {1}{p}}\|{\boldsymbol {w}}\|_{p}^{p}=E({\boldsymbol {w}})+\lambda {\frac {1}{p}}\sum _{i}|w_{i}|^{p}

を使用する。 ${\boldsymbol {w}}$ はパラメータのベクトルで、 $\|\cdot \|_{p}$ は L1 ノルム (p=1) や L2 ノルム (p=2) などである。 $\lambda$ はハイパーパラメータで、正の定数で、大きくするほど正則化の効果が強くなるが、交差確認などで決める。

損失関数をパラメータで偏微分すると、

L2 正則化の場合: ${\frac {\partial E({\boldsymbol {w}})}{\partial w_{i}}}+\lambda w_{i}$
L1 正則化の場合: ${\frac {\partial E({\boldsymbol {w}})}{\partial w_{i}}}+\lambda \operatorname {sgn}(w_{i})$

となり、これは、最急降下法や確率的勾配降下法を使用する場合は、L2 正則化はパラメータの大きさに比例した分だけ、L1 正則化は $\lambda$ だけ 0 に近づけることを意味する。

この手法は様々なモデルで利用できる。線形回帰モデルに利用した場合は、L1 の場合はラッソ回帰^[1]、L2 の場合はリッジ回帰^[2]と呼ぶ。ロジスティック回帰、ニューラルネットワーク、サポートベクターマシン、条件付き確率場などでも使われる。ニューラルネットワークの世界では、L2 正則化は荷重減衰（英: weight decay）とも呼ばれる。

L1 正則化

L1 正則化を使用すると、いくつかのパラメータを 0 にすることができる。つまり、特徴選択を行っていることになり、スパースモデルになる。0 が多いと疎行列で表現でき、高速に計算できる。しかし、L1 ノルムは評価関数に絶対値を含むため、非連続で微分不可能な点が存在する。勾配法を利用した最適化問題のアルゴリズムによっては変更が必要な場合がある^[3]^[4]。

損失関数が二乗和誤差の場合、L1 正則化は、パラメータの絶対値が λ 以下なら 0にし、そうで無いなら λ だけ 0 に近づけるのと等価である。損失関数をパラメータで偏微分することで確認できる。よって、小さな値のパラメータが 0 になる。

機械学習の手法において、データが平均0分散1に正規化されていないと上手く動作しないものが多いが、L1 正則化において全てのパラメータで同じように λ ずつ減らすということは、同じようなスケーリングでなければならず、平均0分散1に正規化されていないと上手く働かない。

L0 正則化

L0 正則化とは 0 では無いパラメータの数で正則化する方法のこと。ただし、組み合わせ最適化問題になるため、計算コストが非常に高いという問題がある。パラメータ数が多い場合は貪欲法を利用し、近似解を得る。線形モデルであれば残すパラメータを決めるのに一般化交差確認が利用できる。

情報量規準

事前確率を使用するベイジアン学習法では、複雑なモデルにより小さな確率を割り振ることができる。よく使われるモデル選択手法としては、赤池情報量規準（AIC）、最小記述長（MDL）、ベイズ情報量規準（BIC）などがある。

線形モデルでの手法

下記は一般化線形モデルで使用される正則化の手法の一覧である。

さらに見る

...

モデル	適合尺度	エントロピー尺度^[5]^[6]
赤池情報量規準/ベイズ情報量規準	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{0}$
リッジ回帰^[2]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{2}$
ラッソ回帰^[1]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{1}$
エラスティックネット^[7]	$\\|Y-X\beta \\|_{2}$	$\lambda _{1}\\|\beta \\|_{1}+\lambda _{2}\\|\beta \\|_{2}$
基底追跡ノイズ除去	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\beta \\|_{1}$
Rudin-Osher-Fatemi モデル (TV)	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{1}$
Potts モデル	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{0}$
RLAD^[8]	$\\|Y-X\beta \\|_{1}$	$\\|\beta \\|_{1}$
Dantzig 選択器^[9]	$\\|X^{\top }(Y-X\beta )\\|_{\infty }$	$\\|\beta \\|_{1}$
SLOPE^[10]	$\\|Y-X\beta \\|_{2}$	$\sum _{i=1}^{p}\lambda _{i}\|\beta \|_{(i)}$

モデル	適合尺度	エントロピー尺度^[5]^[6]
赤池情報量規準/ベイズ情報量規準	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{0}$
リッジ回帰^[2]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{2}$
ラッソ回帰^[1]	$\\|Y-X\beta \\|_{2}$	$\\|\beta \\|_{1}$
エラスティックネット^[7]	$\\|Y-X\beta \\|_{2}$	$\lambda _{1}\\|\beta \\|_{1}+\lambda _{2}\\|\beta \\|_{2}$
基底追跡ノイズ除去	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\beta \\|_{1}$
Rudin-Osher-Fatemi モデル (TV)	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{1}$
Potts モデル	$\\|Y-X\beta \\|_{2}$	$\lambda \\|\nabla \beta \\|_{0}$
RLAD^[8]	$\\|Y-X\beta \\|_{1}$	$\\|\beta \\|_{1}$
Dantzig 選択器^[9]	$\\|X^{\top }(Y-X\beta )\\|_{\infty }$	$\\|\beta \\|_{1}$
SLOPE^[10]	$\\|Y-X\beta \\|_{2}$	$\sum _{i=1}^{p}\lambda _{i}\|\beta \|_{(i)}$

統計および機械学習における正則化

L1 正則化

L0 正則化

情報量規準

線形モデルでの手法

逆問題における正則化

関連項目

参照

Wikiwand - on