吉洪诺夫正则化

吉洪诺夫正则化得名于安德烈·尼古拉耶维奇·吉洪诺夫，是在自变量高度相关的情景下估计多元回归模型系数的方法。^[1]它已被用于许多领域，包括计量经济学、化学和工程学。^[2]吉洪诺夫正则化为非适定性问题的正则化中最常见的方法。在统计学中，本方法被称为脊回归回归或岭回归（ridge regression）；在机器学习领域则称为权重衰减或权值衰减（weight decay）。因为有不同的数学家独立发现此方法，此方法又称做吉洪诺夫－米勒法（Tikhonov–Miller method）、菲利浦斯－图米法（Phillips–Twomey method）、受限线性反演（constrained linear inversion method），或线性正规化（linear regularization）。此方法亦和用在非线性最小二乘法的莱文伯格-马夸特方法相关。它对于缓解线性回归中的多重共线性问题特别有用，这常见于有大量参数的模型中。^[3]总的来说，这种方法提高了参数估计的效率，但也有可容忍的偏差（见偏差-方差权衡）。^[4]

该理论于 1970 年由 Hoerl 与 Kennard 发表在《技术计量学》上的文章《岭回归：非正交问题的偏估计》及《岭回归：非正交问题中的应用》中首次提出。^[5]^[6]^[1]这是对脊分析领域进行十年研究的结果。^[7]

岭回归是通过创建岭回归估计量（RR）实现的。当线性回归模型具有多重共线（高度相关）的自变量时，岭回归对于最小二乘估计的不精确性是一种可能的解决方案。这提供了更精确的岭参数估计，因为它的方差和均方估计量通常小于先前推导的最小二乘估计量。^[8]^[2]

当求解超定问题（即 $A_{m\times n}x=b,m>n$ ）时，矩阵 $A$ 的协方差矩阵 $A^{H}A$ 奇异或接近奇异时，利用最小二乘方法求出的结果 ${\hat {x}}_{LS}=(A^{H}A)^{-1}A^{H}b$ 会出现发散或对 $x$ 不合理的逼近。为了解决这一问题，吉洪诺夫于 1963 年提出了利用正则化项修改最小二乘的代价函数的方法，修改后的代价函数如下：

$J(x)={\frac {1}{2}}(\lVert Ax-b\rVert _{2}^{2}+\lambda \lVert x\rVert _{2}^{2})$

式中 $\lambda \geq 0$ 称为正则化参数^[9]，这种方法被称为吉洪诺夫正则化。

概览

在最简单的情况下，向主对角线添加正元素可以缓解近奇异矩量矩阵 $(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )$ 问题，减少条件数。类似于最小二乘估计量，简单岭估计量可定义为

{\hat {\beta }}_{R}=(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\lambda \mathbf {I} )^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {y}

其中 $\mathbf {y}$ 是回归子， $\mathbf {X}$ 是设计矩阵， $\mathbf {I}$ 是单位矩阵，岭参数 $\lambda \geq 0$ 则是矩量矩阵对角线的恒定位移。^[10]可以证明这个估计量是约束为 $\beta ^{\mathsf {T}}\beta =c$ 的最小二乘问题的解，可表达为拉格朗日形式：

\min _{\beta }\,(\mathbf {y} -\mathbf {X} \beta )^{\mathsf {T}}(\mathbf {y} -\mathbf {X} \beta )+\lambda (\beta ^{\mathsf {T}}\beta -c)

其说明， $\lambda$ 不过是约束的拉格朗日乘数。^[11]通常要根据启发式准则选择 $\lambda$ ，以便不完全满足约束。特别是在约束 $\lambda =0$ ，即非约束约束（non-binding constrain），岭估计量退化为普通最小二乘法。下面讨论一种更通用的吉洪诺夫正则化方法。

历史

吉洪诺夫正则化是在许多不同背景下独立发明的。安德烈·吉洪诺夫^[12]^[13]^[14]^[15]^[16]和 David L. Phillips 最早使用了这种方法。^[17]有限维情形由采用统计方法的 Arthur E. Hoerl^[18] 和 Manus Foster 完成，后者将其解释为克里金法滤子。^[19]自 Hoerl 之后，这种方法在统计学文献中被称为岭回归，^[20]以沿单位矩阵对角线的形状命名。

吉洪诺夫正则化

假设对已知矩阵 $A$ 和向量 $\mathbf {b}$ ，我们希望找到向量 $\mathbf {x}$ 使^{[需要解释]}

A\mathbf {x} =\mathbf {b} .

标准方法是普通最小二乘法线性回归。^{[需要解释]}但若没有 $\mathbf {x}$ 满足方程或超过一个 $\mathbf {x}$ 满足（即解不唯一），则待研究问题为不适定问题，普通最小二乘估计会导致方程组过定或欠定。大多数现实世界的现象在前向问题中都具有低通滤性质^{[需要解释]}，其中 $A$ 将 $\mathbf {x}$ 映射到 $\mathbf {b}$ 。因此在解决逆问题时，逆映射作为高通滤波器，具有放大噪声的不良趋势（特征值/奇异值在逆映射中最大，在正映射中最小）。此外，普通最小二乘隐式地消除了位于 $A$ 的零空间的 $\mathbf {x}$ 的重建版本的每个元素，而非允许将模型用作 $\mathbf {x}$ 的先验。普通最小二乘寻找最小化残差平方和，可以紧凑地写作

\|A\mathbf {x} -\mathbf {b} \|_{2}^{2},

其中 $\|\cdot \|_{2}$ 是欧几里得范数。

为优先选择具有所需性质的特定解，可在最小化中包含正则化项：

\|A\mathbf {x} -\mathbf {b} \|_{2}^{2}+\|\Gamma \mathbf {x} \|_{2}^{2}

其中吉洪诺夫矩阵 $\Gamma$ 需要适当选取，许多时候选为单位矩阵的标量倍数（ $\Gamma =\alpha I$ ），并优先考虑范数较小的解；这叫做 $L 2$ 正则化。^[21]这之外，若认为基础向量几乎连续，则可使用高通运算（如递推关系式或加权离散傅里叶变换）以实现平滑。这种正则化改进了问题条件，从而实现了直接的数值求解。显式解表示为 ${\hat {x}}$ ，是这样得到：

{\hat {x}}=(A^{\top }A+\Gamma ^{\top }\Gamma )^{-1}A^{\top }\mathbf {b} .

正则化的效果可能因矩阵 $\Gamma$ 的尺度而异。若择 $\Gamma =0$ ，如 $(A^{\top }A)^{-1}$ 存在，则简化为非正则化最小二乘解。

除线性回归外， $L 2$ 正则化还有许多应用场景，如逻辑斯谛回归或支持向量机分类，^[22]以及矩阵分解。^[23]

广义吉洪诺夫正则化

对于 $x$ 和数据误差的多元常态分布，可以应用变量的变换来简化上述情况。等价地，可以寻求最小化 $x$ ：

\|Ax-b\|_{P}^{2}+\|x-x_{0}\|_{Q}^{2},

其中 $\|x\|_{Q}^{2}$ 表示加权范数平方 $x^{\top }Qx$ （比较马哈拉诺比斯距离）。在贝叶斯解释中， $P$ 是 $b$ 的逆协方差矩阵； $x_{0}$ 是 $x$ 的期望； $Q$ 是 $x$ 的逆协方差矩阵。吉洪诺夫矩阵为矩阵 $Q=\Gamma ^{\top }\Gamma$ 的分解（如科列斯基分解），可视作白化变换器。

这个推广问题有最优解 $x^{*}$ ，可以使用公式显式地写为

x^{*}=(A^{\top }PA+Q)^{-1}(A^{\top }Pb+Qx_{0}),

或等效地，当 $Q$ 非空：

x^{*}=x_{0}+(A^{\top }PA+Q)^{-1}(A^{\top }P(b-Ax_{0})).

拉夫连季耶夫正则化

有时可以避免使用 $A^{\top }$ ，这由米哈伊尔·拉夫连季耶夫指出。^[24]例如，若 $A$ 是对称正定矩阵，即 $A=A^{\top }>0$ ，则其逆 $A^{-1}$ 可以用来在广义吉洪诺夫正则化中构造加权范数平方 $\|x\|_{P}^{2}=x^{\top }A^{-1}x$ ，则有最小化

\|Ax-b\|_{A^{-1}}^{2}+\|x-x_{0}\|_{Q}^{2}

或等价地由常数项，

x^{\top }(A+Q)x-2x^{\top }(b+Qx_{0})

该最小化问题有最优解 $x^{*}$ ，可以紧凑地写作公式

x^{*}=(A+Q)^{-1}(b+Qx_{0})

是广义吉洪诺夫问题的解，其中 $A=A^{\top }=P^{-1}$ 。

拉夫连季耶夫正则化对原吉洪诺夫正则化有利，因为拉夫连季耶夫矩阵 $A+Q$ 的条件数比吉洪诺夫矩阵 $A^{\top }A+\Gamma ^{\top }\Gamma$ 小。

希尔伯特空间中的正则化

典型的离散线性非适定问题由积分方程的离散化引起，可以在原始的无穷维背景中实现吉洪诺夫正则化。上面，我们可以将 $A$ 解释为希尔伯特空间上的紧算子， $x$ 、 $b$ 为 $A$ 的域与范围上的元素。 $A^{*}A+\Gamma ^{\top }\Gamma$ 是自伴随有界可逆运算。

与奇异值分解和维纳滤波器的关系

有 $\Gamma =\alpha I$ 这个最小二乘解可用奇异值分解以特殊的方式分析。给定奇异值分解

A=U\Sigma V^{\top }

，奇异值 $\sigma _{i}$ ，则吉洪诺夫正则解可表为

{\hat {x}}=VDU^{\top }b,

其中 $D$ 的对角值为

D_{ii}={\frac {\sigma _{i}}{\sigma _{i}^{2}+\alpha ^{2}}}

其余地方都是 0。这表明吉洪诺夫参数对正则化问题条件数的影响。对于广义情况，可以使用广义奇异值分解推导出类似的表示。^[25]

最后，其与维纳滤波有关：

{\hat {x}}=\sum _{i=1}^{q}f_{i}{\frac {u_{i}^{\top }b}{\sigma _{i}}}v_{i},

其中维纳权为 $f_{i}={\frac {\sigma _{i}^{2}}{\sigma _{i}^{2}+\alpha ^{2}}}$ ； $q$ 是 $A$ 的秩。

确定吉洪诺夫因子

最佳正则化参数 $\alpha$ 一般未知，在实践中常常临时确定。一种可能的方法依赖于下面描述的贝叶斯解释。其他方法包括偏差原理、交叉验证、L 曲线法、^[26]约束最大似然法和无偏预测风险估计。Grace Wahba 证明，这种最优参数用留一交叉验证最小^[27]^[28]

G={\frac {\operatorname {RSS} }{\tau ^{2}}}={\frac {\|X{\hat {\beta }}-y\|^{2}}{[\operatorname {Tr} (I-X(X^{T}X+\alpha ^{2}I)^{-1}X^{T})]^{2}}},

其中 $\operatorname {RSS}$ 是残差平方和， $\tau$ 是自由度。

用前面的 SVD 分解，可以简化上述表达式：

\operatorname {RSS} =\left\|y-\sum _{i=1}^{q}(u_{i}'b)u_{i}\right\|^{2}+\left\|\sum _{i=1}^{q}{\frac {\alpha ^{2}}{\sigma _{i}^{2}+\alpha ^{2}}}(u_{i}'b)u_{i}\right\|^{2},

\operatorname {RSS} =\operatorname {RSS} _{0}+\left\|\sum _{i=1}^{q}{\frac {\alpha ^{2}}{\sigma _{i}^{2}+\alpha ^{2}}}(u_{i}'b)u_{i}\right\|^{2},

；

\tau =m-\sum _{i=1}^{q}{\frac {\sigma _{i}^{2}}{\sigma _{i}^{2}+\alpha ^{2}}}=m-q+\sum _{i=1}^{q}{\frac {\alpha ^{2}}{\sigma _{i}^{2}+\alpha ^{2}}}.

与概率表述的关系

逆问题的概率公式引入了（当所有不确定量都为正态量时）表示模型参数先验不确定性的协方差矩阵 $C_{M}$ ，以及表示观测参数不确定性的协方差矩阵 $C_{D}$ 。^[29]当它们都是对角各向同性矩阵（ $C_{M}=\sigma _{M}^{2}I$ ），且 $C_{D}=\sigma _{D}^{2}I$ ，则逆理论方程简化为上述方程，且 $\alpha ={\sigma _{D}}/{\sigma _{M}}$ 。

贝叶斯解释

虽然选择这个正则化问题的解可能看起来是人为的，而且矩阵 $\Gamma$ 似乎相当武断，但从贝叶斯的角度来看，这个过程是合理的。^[30]注意，不适定问题必须引入额外假设才能得到唯一解。在统计学中， $x$ 的先验分布有时被认为是多元常态分布。为简单起见，此处做出以下假设：均值为零；组分独立；组分标准差均为 $\sigma _{x}$ 。数据也受误差影响，并且假设 $b$ 中的误差独立，均值为零，标准差为 $\sigma _{b}$ 。在这些假设下，根据贝叶斯定理，吉洪诺夫正则化解是给定数据和 $x$ 的先验分布的最可能的解。^[31]

若正态性假设被同方差和无关误差假设代替，且若假设均值仍是零，则高斯-马尔可夫定理意味着解是最小无偏线性估计量。^[32]

吉洪诺夫正则化

概览

历史

吉洪诺夫正则化

广义吉洪诺夫正则化

拉夫连季耶夫正则化

希尔伯特空间中的正则化

与奇异值分解和维纳滤波器的关系

确定吉洪诺夫因子

与概率表述的关系

贝叶斯解释

另见

注释

参考文献

阅读更多

Wikiwand - on