热门问题

时间线

聊天

视角

Hinge loss

来自维基百科，自由的百科全书

Hinge loss

Remove ads

在機器學習中，鉸鏈損失是一個用於訓練分類器的損失函數。鉸鏈損失被用於「最大間格分類」，因此非常適合用於支持向量機 (SVM)。^[1] 對於一個預期輸出 $t={\pm }1$ ，分類結果 $y$ 的鉸鏈損失定義為

\ell (y)=\max(0,1-t\cdot y)

Thumb — $t = 1$ 時變量 $y$ （水平方向）的鉸鏈損失（藍色，垂直方向）與0/1損失（垂直方向；綠色為 $y < 0$ ，即分類錯誤）。注意鉸接損失在 $abs(y) < 1$ 時也會給出懲罰，對應於支持向量機中間隔的概念。

特別注意：以上式子的 $y$ 應該使用分類器的「原始輸出」，而非預測標籤。例如，在線性支持向量機當中， $y=\mathbf {w} \cdot \mathbf {x} +b$ ，其中 $(\mathbf {w} ,b)$ 是超平面參數， $\mathbf {x}$ 是輸入資料點。

當 $t$ 和 $y$ 同號（意即分類器的輸出 $y$ 是正確的分類），且 $|y|\geq 1$ 時，鉸鏈損失 $\ell (y)=0$ 。但是，當它們異號（意即分類器的輸出 $y$ 是錯誤的分類）時， $\ell (y)$ 隨 $y$ 線性增長。套用相似的想法，如果 $|y|<1$ ，即使 $t$ 和 $y$ 同號（意即分類器的分類正確，但是間隔不足），此時仍然會有損失。

Remove ads

擴展

二元支持向量機經常通過一對多（winner-takes-all strategy，WTA SVM）或一對一（max-wins voting，MWV SVM）策略來擴展為多元分類，^[2] 鉸接損失也可以做出類似的擴展，已有數個不同的多元分類鉸接損失的變體被提出。^[3] 例如，Crammer 和 Singer ^[4] 將一個多元線性分類的鉸鏈損失定義為^[5]

\ell (y)=\max(0,1+\max _{y\neq t}\mathbf {w} _{y}\mathbf {x} -\mathbf {w} _{t}\mathbf {x} )

其中 $t$ 為目的標籤， $\mathbf {w} _{t}$ 和 $\mathbf {w} _{y}$ 該模型的參數。

Weston 和 Watkins 提出了一個類似的定義，但使用求和代替了最大值：^[6]^[3]

\ell (y)=\sum _{y\neq t}\max(0,1+\mathbf {w} _{y}\mathbf {x} -\mathbf {w} _{t}\mathbf {x} )

在結構預測中，鉸接損失可以進一步擴展到結構化輸出空間。支持間隔調整的結構化支持向量機可以使用如下所示的鉸鏈損失變體，其中 $w$ 表示SVM的參數， $y$ 為SVM的預測結果， $φ$ 為聯合特徵函數， $Δ$ 為漢明損失:

{\begin{aligned}\ell (\mathbf {y} )&=\max(0,\Delta (\mathbf {y} ,\mathbf {t} )+\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {y} )\rangle -\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {t} )\rangle )\\&=\max(0,\max _{y\in {\mathcal {Y}}}\left(\Delta (\mathbf {y} ,\mathbf {t} )+\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {y} )\rangle \right)-\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {t} )\rangle )\end{aligned}}

Remove ads

優化算法

鉸鏈損失是一種凸函數，因此許多機器學習中常用的凸優化器均可用於優化鉸鏈損失。它不是可微函數，但擁有一個關於線性 SVM 模型參數 $w$ 的次導數

{\frac {\partial \ell }{\partial w_{i}}}={\begin{cases}-t\cdot x_{i}&{\text{if }}t\cdot y<1\\0&{\text{otherwise}}\end{cases}}

其評分函數為 $y=\mathbf {w} \cdot \mathbf {x}$

Thumb — 三個鉸鏈損失的變體 $z = ty$ ：「普通變體」（藍色），平方變體（綠色），以及 Rennie 和 Srebro 提出的分段平滑變體（紅色）。

然而，由於鉸接損失在 $ty=1$ 處不可導， Zhang 建議在優化時可使用平滑的變體建議，^[7] 如Rennie 和 Srebro 提出的分段平滑^[8]

\ell (y)={\begin{cases}{\frac {1}{2}}-ty&{\text{if}}~~ty\leq 0,\\{\frac {1}{2}}(1-ty)^{2}&{\text{if}}~~0<ty\leq 1,\\0&{\text{if}}~~1\leq ty\end{cases}}

或平方平滑。

\ell _{\gamma }(y)={\begin{cases}{\frac {1}{2\gamma }}\max(0,1-ty)^{2}&{\text{if}}~~ty\geq 1-\gamma \\1-{\frac {\gamma }{2}}-ty&{\text{otherwise}}\end{cases}}

Modified Huber loss $L$ 是 $\gamma =2$ 時損失函數的特例，此時 $L(t,y)=4\ell _{2}(y)$ 中。

Remove ads

參考文獻

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

Remove ads