ラッソ回帰 (ラッソかいき、least absolute shrinkage and selection operator 、Lasso 、LASSO )は、変数選択 と正則化の 両方を実行し、生成する統計モデルの予測精度と解釈可能性を向上させる回帰分析 手法。1986年に地球物理学の文献で最初に導入され[1] 、その後1996年にロバート・ティブシラニ (英語版 ) [2] が独自に再発見して一般化した。
この項目「
ラッソ回帰 」は翻訳されたばかりのものです。不自然あるいは曖昧な表現などが含まれる可能性があり、このままでは読みづらいかもしれません。(原文:
英語版 Lasso (statistics) )
修正、加筆に協力し、現在の表現をより自然な表現にして下さる方を求めています。
ノートページ や
履歴 も参照してください。
(2020年6月 )
原文と比べた結果、この記事には多数の(または内容の大部分に影響ある)誤訳 があることが判明しています。情報の利用には注意してください。
ラッソ回帰はもともと最小二乗法 で定義されていた。最小二乗法の単純なケースでは、予測器の振る舞いについて多くの事実が分かる。すなわち、リッジ回帰 やベストサブセット選択 (英語版 ) との関係、ラッソ係数予測といわゆるソフトしきい値処理(soft thresholding)との関係である。
一般化線形モデル 、一般化推定方程式 、比例ハザードモデル 、M推定器 (英語版 ) など、さまざまな統計モデルに簡単に拡張できる[2] [3] 。
ラッソ回帰は、与えられた共変量の一部のみ最終モデルで使用することにより、回帰モデルの予測精度と解釈可能性を向上させるために導入された[2] [4] 。
ラッソ回帰以前は、段階的選択が変数選択に広く用いられていた。これは、少数の共変量のみが結果と強い関係がある場合などには予測精度を向上させるが、それ以外の場合は、予測誤差を悪化させる可能性がある。 また、大きな回帰係数を縮小して過剰適合 を減らすリッジ回帰 も予測精度を向上させるために用いられていたが、リッジ回帰では共変量選択を実行しない。
ラッソ回帰は、回帰係数の絶対値の合計を固定値よりも小さくすることでこれらの目標を両方とも達成できる。これにより、特定の係数が強制的にゼロに設定され、これらの係数を含まないより単純なモデルが効果的に選択される。この考え方は、リッジ回帰に似ているが、リッジ回帰の場合はこれは係数のサイズを縮小するだけであり、ゼロに設定することはない。
ラッソ回帰はもともと最小二乗法の場面で導入された。このケースを最初に検討することは有益である。
それぞれが
p
{\displaystyle p}
個の共変量 と単一の結果で構成される
N
{\displaystyle N}
個のケースで構成されるサンプルを考える。
y
i
{\displaystyle y_{i}}
を結果、
x
i
:=
(
x
1
,
x
2
,
…
,
x
p
)
T
{\displaystyle x_{i}:=(x_{1},x_{2},\ldots ,x_{p})^{T}}
を
i
{\displaystyle i}
番目のケースの共変量ベクトルとする。
ラッソ回帰では、次の式を解くことを考える。
min
β
0
,
β
{
∑
i
=
1
N
(
y
i
−
β
0
−
x
i
T
β
)
2
}
subject to
∑
j
=
1
p
|
β
j
|
≤
t
.
{\displaystyle \min _{\beta _{0},\beta }\left\{\sum _{i=1}^{N}(y_{i}-\beta _{0}-x_{i}^{T}\beta )^{2}\right\}\quad {\text{ subject to }}\sum _{j=1}^{p}|\beta _{j}|\leq t.}
[2]
ここで、
t
{\displaystyle t}
を正則化の量を決定する事前に指定された自由パラメーターとする。
共変量行列
X
{\displaystyle X}
について、
X
i
j
=
(
x
i
)
j
{\displaystyle X_{ij}=(x_{i})_{j}}
、すなわち
x
i
T
{\displaystyle x_{i}^{T}}
が
X
{\displaystyle X}
の第
i
{\displaystyle i}
行とすると、次のように簡潔に記述することができる。
min
β
0
,
β
{
1
N
‖
y
−
β
0
1
N
−
X
β
‖
2
2
}
subject to
‖
β
‖
1
≤
t
.
{\displaystyle \min _{\beta _{0},\beta }\left\{{\frac {1}{N}}\left\|y-\beta _{0}1_{N}-X\beta \right\|_{2}^{2}\right\}\quad {\text{ subject to }}\|\beta \|_{1}\leq t.}
ここで、
‖
u
‖
p
=
(
∑
i
=
1
N
|
u
i
|
p
)
1
/
p
{\displaystyle \|u\|_{p}=\left(\sum _{i=1}^{N}|u_{i}|^{p}\right)^{1/p}}
を標準
ℓ
p
{\displaystyle \ell ^{p}}
ノルム とし、
1
N
{\displaystyle 1_{N}}
は 1 が N 個並んだ縦ベクトルとする。
データポイント
x
i
{\displaystyle x_{i}}
のスカラー平均を
x
¯
{\displaystyle {\bar {x}}}
、応答変数
y
i
{\displaystyle y_{i}}
の平均を
y
¯
{\displaystyle {\bar {y}}}
と記載すると、
β
0
{\displaystyle \beta _{0}}
の推定値
β
^
0
=
y
¯
−
x
¯
T
β
{\displaystyle {\hat {\beta }}_{0}={\bar {y}}-{\bar {x}}^{T}\beta }
を用いて下記のように記述できる。
y
i
−
β
^
0
−
x
i
T
β
=
y
i
−
(
y
¯
−
x
¯
T
β
)
−
x
i
T
β
=
(
y
i
−
y
¯
)
−
(
x
i
−
x
¯
)
T
β
,
{\displaystyle y_{i}-{\hat {\beta }}_{0}-x_{i}^{T}\beta =y_{i}-({\bar {y}}-{\bar {x}}^{T}\beta )-x_{i}^{T}\beta =(y_{i}-{\bar {y}})-(x_{i}-{\bar {x}})^{T}\beta ,}
したがって、中央に配置された(ゼロ平均化された)変数を処理するのが標準的である。解が測定スケールに依存しないよう、共変量は通常、標準化されて いる
(
∑
i
=
1
N
x
i
2
=
1
)
{\displaystyle \textstyle \left(\sum _{i=1}^{N}x_{i}^{2}=1\right)}
。
参考のために書き直すと
min
β
∈
R
p
{
1
N
‖
y
−
X
β
‖
2
2
}
subject to
‖
β
‖
1
≤
t
.
{\displaystyle \min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}\right\}\quad {\text{ subject to }}\|\beta \|_{1}\leq t.}
これは、ラグランジュの未定乗数法 に基づいて書き直すと、下記の形式と同値である。
min
β
∈
R
p
{
1
N
‖
y
−
X
β
‖
2
2
+
λ
‖
β
‖
1
}
{\displaystyle \min _{\beta \in \mathbb {R} ^{p}}\left\{{\frac {1}{N}}\left\|y-X\beta \right\|_{2}^{2}+\lambda \|\beta \|_{1}\right\}}
ここで、
t
{\displaystyle t}
と
λ
{\displaystyle \lambda }
との関係はデータに依存する。
ラッソ正則化は、一般化線形モデル 、一般化推定方程式、比例ハザードモデル、一般的なM-推定量など、さまざまな目的関数に拡張できる[2] [3] 。
目的関数を下記とすると
1
N
∑
i
=
1
N
f
(
x
i
,
y
i
,
α
,
β
)
{\displaystyle {\frac {1}{N}}\sum _{i=1}^{N}f(x_{i},y_{i},\alpha ,\beta )}
ラッソ正則化した予測値は次の解となる
min
α
,
β
1
N
∑
i
=
1
N
f
(
x
i
,
y
i
,
α
,
β
)
subject to
‖
β
‖
1
≤
t
{\displaystyle \min _{\alpha ,\beta }{\frac {1}{N}}\sum _{i=1}^{N}f(x_{i},y_{i},\alpha ,\beta )\quad {\text{subject to }}\|\beta \|_{1}\leq t}
ここで、
β
{\displaystyle \beta }
だけが罰則を受け、
α
{\displaystyle \alpha }
は許可された値を自由に取ることができる。上記の基本形において、
β
0
{\displaystyle \beta _{0}}
が罰則を受けなかったことに相当する。
ベイジアン解釈
ラプラス分布は、平均で鋭くピークに達し、正規分布に比べて確率密度が集中している。
係数の事前分布として正規分布を仮定した場合の MAP推定値がリッジ回帰に相当するのと同様に、係数の事前分布としてラプラス分布 を仮定した場合の MAP推定値がラッソ回帰に相当する。
ラプラス分布はゼロで鋭くピークに達し(その1次導関数は不連続)、確率分布は正規分布よりもゼロに近く集中する。
このことからも、なぜラッソ回帰では一部の係数をゼロに設定する傾向があるのに、リッジ回帰はそうではないのか、ということを説明できる[2] 。
p
(
y
,
β
∣
X
)
=
p
(
y
∣
β
,
X
)
p
(
β
∣
X
)
=
∏
n
=
1
N
p
(
y
n
∣
β
,
x
n
)
∏
k
=
0
K
p
(
β
k
)
{\displaystyle p(\mathbf {y} ,{\boldsymbol {\beta }}\mid \mathbf {X} )=p(\mathbf {y} \mid {\boldsymbol {\beta }},\mathbf {X} )\;p({\boldsymbol {\beta }}\mid \mathbf {X} )=\prod _{n=1}^{N}p(y_{n}\mid {\boldsymbol {\beta }},\mathbf {x} _{n})\;\prod _{k=0}^{K}p(\beta _{k})}
すなわち、
log
p
(
y
,
β
∣
X
)
=
∑
n
=
1
N
log
p
(
y
n
∣
β
,
x
n
)
+
∑
k
=
0
K
log
p
(
β
k
)
{\displaystyle \log {p(\mathbf {y} ,{\boldsymbol {\beta }}\mid \mathbf {X} )}=\sum _{n=1}^{N}\log {p(y_{n}\mid {\boldsymbol {\beta }},\mathbf {x} _{n})}+\sum _{k=0}^{K}\log {p(\beta _{k})}}
である。
ここで、
y
{\displaystyle \mathbf {y} }
の事前分布として平均
X
β
{\displaystyle \mathbf {X} {\boldsymbol {\beta }}}
、分散
σ
2
{\displaystyle \sigma ^{2}}
の正規分布 を仮定すると、右辺第1項は
∑
n
=
1
N
log
(
1
2
π
σ
exp
(
−
(
y
n
−
x
n
⊤
β
)
2
2
σ
2
)
)
=
−
N
log
(
2
π
σ
)
−
1
2
σ
2
∑
n
=
1
N
(
y
n
−
x
n
⊤
β
)
2
{\displaystyle \sum _{n=1}^{N}\log {\left({\frac {1}{{\sqrt {2\pi }}\,\sigma }}\exp {\left(-{\frac {(y_{n}-\mathbf {x} _{n}^{\top }{\boldsymbol {\beta }})^{2}}{2\sigma ^{2}}}\right)}\right)}=-N\log({\sqrt {2\pi }}\,\sigma )-{\frac {1}{2\sigma ^{2}}}\sum _{n=1}^{N}(y_{n}-\mathbf {x} _{n}^{\top }{\boldsymbol {\beta }})^{2}}
さらに、パラメータ
β
{\displaystyle {\boldsymbol {\beta }}}
の事前分布として平均
0
{\displaystyle 0}
、分散
2
b
2
{\displaystyle 2b^{2}}
のラプラス分布 を仮定すると、右辺第2項は
∑
k
=
0
K
log
(
1
2
b
exp
(
−
|
β
k
|
b
)
)
=
−
(
K
+
1
)
log
(
2
b
)
−
1
b
∑
k
=
0
K
|
β
k
|
{\displaystyle \sum _{k=0}^{K}\log {\left({\frac {1}{2b}}\exp {\left(-{\frac {|\beta _{k}|}{b}}\right)}\right)}=-(K+1)\log(2b)-{\frac {1}{b}}\sum _{k=0}^{K}|\beta _{k}|}
以上から、
λ
=
2
σ
2
b
N
{\displaystyle \lambda ={\frac {2\sigma ^{2}}{bN}}}
を用いて次のように表される。
log
p
(
y
,
β
∣
X
)
=
−
N
2
σ
2
(
1
N
∑
n
=
1
N
(
y
n
−
x
n
⊤
β
)
2
+
λ
∑
k
=
0
K
|
β
i
|
)
+
c
o
n
s
t
.
{\displaystyle \log {p(\mathbf {y} ,{\boldsymbol {\beta }}\mid \mathbf {X} )}=-{\frac {N}{2\sigma ^{2}}}\left({\frac {1}{N}}\sum _{n=1}^{N}(y_{n}-\mathbf {x} _{n}^{\top }{\boldsymbol {\beta }})^{2}+\lambda \sum _{k=0}^{K}|\beta _{i}|\right)+\mathrm {const.} }
括弧内は、ラグランジュの未定乗数法 に基づく記載と同等である。
エラスティックネット
2005年、Zou と Hastie は、ラッソ回帰に存在する欠点に対処するためにエラスティックネット を導入した[5] 。
ラッソ回帰は、標本数が共変量の数よりも少ないとき(
n
<
p
{\displaystyle n<p}
)、標本数(
n
{\displaystyle n}
個)までしか共変量を選択できない。
また、ラッソ回帰では高度に相関する共変量の組み合わせから1つしか共変量を選択しないことが多いため、共変量が強く相関しているならば、パフォーマンスがリッジ回帰に劣る場合がある。
エラスティックネットは
ℓ
2
{\displaystyle \ell ^{2}}
によるペナルティ項を追加することによってラッソ回帰を拡張し、下記の式を得る。
min
β
∈
R
p
{
‖
y
−
X
β
‖
2
2
+
λ
1
‖
β
‖
1
+
λ
2
‖
β
‖
2
2
}
,
{\displaystyle \min _{\beta \in \mathbb {R} ^{p}}\left\{\left\|y-X\beta \right\|_{2}^{2}+\lambda _{1}\|\beta \|_{1}+\lambda _{2}\|\beta \|_{2}^{2}\right\},}
これは次の式を解くことと同じである。
min
β
0
,
β
{
‖
y
−
β
0
−
X
β
‖
2
2
}
subject to
(
1
−
α
)
‖
β
‖
1
+
α
‖
β
‖
2
2
≤
t
,
where
α
=
λ
2
λ
1
+
λ
2
.
{\displaystyle {\begin{aligned}\min _{\beta _{0},\beta }\left\{\left\|y-\beta _{0}-X\beta \right\|_{2}^{2}\right\}&{\text{ subject to }}(1-\alpha )\|\beta \|_{1}+\alpha \|\beta \|_{2}^{2}\leq t,\\&{\text{ where }}\alpha ={\frac {\lambda _{2}}{\lambda _{1}+\lambda _{2}}}.\end{aligned}}}
この問題は単純なラッソ回帰の形式で記述できる。
min
β
∗
∈
R
p
{
‖
y
∗
−
X
∗
β
∗
‖
2
2
+
λ
∗
‖
β
∗
‖
1
}
{\displaystyle \min _{\beta ^{*}\in \mathbb {R} ^{p}}\left\{\left\|y^{*}-X^{*}\beta ^{*}\right\|_{2}^{2}+\lambda ^{*}\|\beta ^{*}\|_{1}\right\}}
ただし、
X
(
n
+
p
)
×
p
∗
=
(
1
+
λ
2
)
−
1
/
2
(
X
λ
2
1
/
2
I
p
×
p
)
{\displaystyle X_{(n+p)\times p}^{*}=(1+\lambda _{2})^{-1/2}{\binom {X}{\lambda _{2}^{1/2}I_{p\times p}}}}
、
y
(
n
+
p
)
∗
=
(
y
0
p
)
,
λ
∗
=
λ
1
1
+
λ
2
{\displaystyle y_{(n+p)}^{*}={\binom {y}{0^{p}}},\qquad \lambda ^{*}={\frac {\lambda _{1}}{\sqrt {1+\lambda _{2}}}}}
、
β
∗
=
1
+
λ
2
β
.
{\displaystyle \beta ^{*}={\sqrt {1+\lambda _{2}}}\beta .}
そして、
β
^
=
β
^
∗
1
+
λ
2
{\displaystyle {\hat {\beta }}={\frac {{\hat {\beta }}^{*}}{\sqrt {1+\lambda _{2}}}}}
、共変量が互いに直交する場合、
β
^
j
=
β
^
j
*,OLS
1
+
λ
2
max
(
0
,
1
−
λ
∗
|
β
^
j
*,OLS
|
)
=
β
^
j
OLS
1
+
λ
2
max
(
0
,
1
−
λ
1
|
β
^
j
OLS
|
)
=
(
1
+
λ
2
)
−
1
β
^
j
lasso
.
{\displaystyle {\hat {\beta }}_{j}={\frac {{\hat {\beta }}_{j}^{\text{*,OLS}}}{\sqrt {1+\lambda _{2}}}}\max \left(0,1-{\frac {\lambda ^{*}}{\left|{\hat {\beta }}_{j}^{\text{*,OLS}}\right|}}\right)={\frac {{\hat {\beta }}_{j}^{\text{OLS}}}{1+\lambda _{2}}}\max \left(0,1-{\frac {\lambda _{1}}{\left|{\hat {\beta }}_{j}^{\text{OLS}}\right|}}\right)=(1+\lambda _{2})^{-1}{\hat {\beta }}_{j}^{\text{lasso}}.}
エラスティックネットのペナルティは、ラッソ回帰およびリッジ回帰のペナルティの組み合わせに相当する。
正規化パラメータ
λ
1
,
λ
2
{\displaystyle \lambda _{1},\lambda _{2}}
は、交差検証法を用いたグリッド・サーチにより選択されることが多い。
Adaptive Lasso
2006年、オラクル性 oracle properties を持つように、罰則項に重みを乗じる手法が提唱された[6] 。
a
r
g
m
i
n
β
‖
y
−
∑
j
=
1
p
x
j
β
j
‖
+
λ
∑
j
=
1
p
w
j
|
β
j
|
.
{\displaystyle \operatorname {arg\,min} _{\boldsymbol {\beta }}\left\|\mathbf {y} -\sum _{j=1}^{p}\mathbf {x} _{j}\beta _{j}\right\|+\lambda \sum _{j=1}^{p}w_{j}\left|\beta _{j}\right|.}
MI-LASSO
2013年、多重代入されたデータセットに対して、ラッソ回帰により変数選択する手法が提唱された[7] 。
収縮の強度と変数の選択を制御する正則化パラメータ
λ
{\displaystyle \lambda }
を適切に選択することで、予測の精度と解釈可能性を向上することができる。正則化が強くなりすぎると、重要な変数がモデルから削除される、係数が過度に縮小される等の可能性がある。
正則化パラメータ
λ
{\displaystyle \lambda }
の選択には交差検証法 がよく用いられる。
赤池情報量規準 (AIC)やベイズ情報量規準 (BIC)などの情報量規準 (英語版 ) は、交差検証法よりも計算が高速であり、小さいサンプルでもパフォーマンスが変動しにくいため、交差検証よりも好ましい場合がある[8] 。
情報量規準は、モデルのサンプル内精度を最大化することによって推定器の正則化パラメータを選択すると同時に、その有効なパラメーターの数/自由度にペナルティを課す。
出典
Santosa, Fadil; Symes, William W. (1986). “Linear inversion of band-limited reflection seismograms.”. SIAM Journal on Scientific and Statistical Computing (SIAM) 7 (4): 1307–1330. doi :10.1137/0907087 .
Tibshirani, Robert (1996). “Regression Shrinkage and Selection via the lasso”. Journal of the Royal Statistical Society (Wiley) 58 (1): 267–88. JSTOR 2346178 .
Santosa, Fadil; Symes, William W. (1986). “Linear inversion of band-limited reflection seismograms.”. SIAM Journal on Scientific and Statistical Computing (SIAM) 7 (4): 1307–1330. doi :10.1137/0907087 .
Qixuan Chen (2013 Sep 20). “Variable selection for multiply-imputed data with application to dioxin exposure study”. Statistics in medicine. 32 (21): 3646-59. doi :10.1002/sim.5783 .