非线性最小二乘法

考慮一組 $(x_{1},y_{1}),(x_{2},y_{2}),\dots ,(x_{m},y_{m})$ 共 $m$ 個數據點以及曲線（模型函數） ${\hat {y}}=f(x,{\boldsymbol {\beta }})$ 。該曲線同時取決於 $x$ 與 ${\boldsymbol {\beta }}=(\beta _{1},\beta _{2},\dots ,\beta _{n})$ 共 $n$ 個參數（滿足 $m\geq n$ ）。目標是找到在最小二乘意義上與數據點擬合最好的曲線所對應的參數 ${\boldsymbol {\beta }}$ ，即最小化平方和 $S=\sum _{i=1}^{m}r_{i}^{2},$

其中殘差 $r i$ 的定義為 $r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }}),\qquad (i=1,2,\dots ,m).$

$S$ 取最小值時的梯度為零。由於模型包含 $n$ 個參數，因此可得到 $n$ 個梯度方程： ${\frac {\partial S}{\partial \beta _{j}}}=2\sum _{i}r_{i}{\frac {\partial r_{i}}{\partial \beta _{j}}}=0\quad (j=1,\ldots ,n).$

在非線性系統中，偏導數 ${\textstyle {\frac {\partial r_{i}}{\partial \beta _{j}}}}$ 同時是自變量 $x$ 和參數 ${\boldsymbol {\beta }}$ 的函數，因此這些梯度方程通常沒有封閉解。因而必須為參數選擇初始值用以迭代求解。迭代表達式為 $\beta _{j}\approx \beta _{j}^{k+1}=\beta _{j}^{k}+\Delta \beta _{j}.$

其中， $k$ 是迭代次數， $\Delta {\boldsymbol {\beta }}$ 則是偏移向量。每次迭代時，使用關於 ${\boldsymbol {\beta }}^{k}$ 的一階泰勒級數展開以線性化模型： $f(x_{i},{\boldsymbol {\beta }})\approx f(x_{i},{\boldsymbol {\beta }}^{k})+\sum _{j}{\frac {\partial f(x_{i},{\boldsymbol {\beta }}^{k})}{\partial \beta _{j}}}\left(\beta _{j}-\beta _{j}^{k}\right)=f(x_{i},{\boldsymbol {\beta }}^{k})+\sum _{j}J_{ij}\,\Delta \beta _{j}.$

雅可比矩陣 $J$ 是常數、自變量與參數的函數，因此每次迭代時的 $J$ 並不固定。對線性化模型而言， ${\frac {\partial r_{i}}{\partial \beta _{j}}}=-J_{ij},$

殘差的表達式則為 $\Delta y_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }}^{k}),$ $r_{i}=y_{i}-f(x_{i},{\boldsymbol {\beta }})=\left(y_{i}-f(x_{i},{\boldsymbol {\beta }}^{k})\right)+\left(f(x_{i},{\boldsymbol {\beta }}^{k})-f(x_{i},{\boldsymbol {\beta }})\right)\approx \Delta y_{i}-\sum _{s=1}^{n}J_{is}\Delta \beta _{s}.$

將上述表達式代入梯度方程，可以得到 $-2\sum _{i=1}^{m}J_{ij}\left(\Delta y_{i}-\sum _{s=1}^{n}J_{is}\ \Delta \beta _{s}\right)=0,$

以上方程可化簡為 $n$ 個聯立的線性方程，稱為正規方程（normal equations）： $\sum _{i=1}^{m}\sum _{s=1}^{n}J_{ij}J_{is}\ \Delta \beta _{s}=\sum _{i=1}^{m}J_{ij}\ \Delta y_{i}\qquad (j=1,\dots ,n).$

正規方程可用矩陣表示法寫成 $\left(\mathbf {J} ^{\mathsf {T}}\mathbf {J} \right)\Delta {\boldsymbol {\beta }}=\mathbf {J} ^{\mathsf {T}}\ \Delta \mathbf {y} .$

上述方程是使用高斯-牛頓算法（英語：Gauss–Newton algorithm）求解非線性最小二乘問題的的基礎。

需要注意的是雅可比矩陣定義中導數的符號約定。某些文獻中的 $J$ 可能與此處的定義相差一個負號。

非線性最小二乘法

理論

權重擴展

參見

註釋

參考文獻

Wikiwand - on