机器学习中,铰链损失是一个用于训练分类器的损失函数。铰链损失被用于“最大间格分类”,因此非常适合用于支持向量机 (SVM)。[1] 对于一个预期输出 ,分类结果 的铰链损失定义为

Thumb
t = 1 时变量 y(水平方向)的铰链损失(蓝色,垂直方向)与0/1损失(垂直方向;绿色为 y < 0 ,即分类错误)。注意铰接损失在 abs(y) < 1 时也会给出惩罚,对应于支持向量机中间隔的概念。

特别注意:以上式子的应该使用分类器的“原始输出”,而非预测标签。例如,在线性支持向量机当中,,其中 超平面参数,是输入资料点。

同号(意即分类器的输出是正确的分类),且 时,铰链损失 。但是,当它们异号(意即分类器的输出是错误的分类)时, 线性增长。套用相似的想法,如果 ,即使 同号(意即分类器的分类正确,但是间隔不足),此时仍然会有损失。

扩展

二元支持向量机经常通过一对多(winner-takes-all strategy,WTA SVM)或一对一(max-wins voting,MWV SVM)策略来扩展为多元分类[2] 铰接损失也可以做出类似的扩展,已有数个不同的多元分类铰接损失的变体被提出。[3] 例如,Crammer 和 Singer [4] 将一个多元线性分类的铰链损失定义为[5]

其中 为目的标签, 该模型的参数。

Weston 和 Watkins 提出了一个类似的定义,但使用求和代替了最大值:[6][3]

在结构预测中,铰接损失可以进一步扩展到结构化输出空间。支持间隔调整的结构化支持向量机 可以使用如下所示的铰链损失变体,其中 w 表示SVM的参数, y 为SVM的预测结果,φ 为联合特征函数,Δ汉明损失:

优化算法

铰链损失是一种凸函数,因此许多机器学习中常用的凸优化器均可用于优化铰链损失。 它不是可微函数,但拥有一个关于线性 SVM 模型参数 w次导数

评分函数

Thumb
三个铰链损失的变体 z = ty:“普通变体”(蓝色),平方变体(绿色),以及 Rennie 和 Srebro 提出的分段平滑变体(红色)。

然而,由于铰接损失在 处不可导, Zhang 建议在优化时可使用平滑的变体建议,[7] 如Rennie 和 Srebro 提出的分段平滑[8]

或平方平滑。

Modified Huber loss 时损失函数的特例,此时 中。

参考文献

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.