統計學習理論(英語:Statistical learning theory),一種機器學習的架構,根據統計學泛函分析(Functional Analysis)而建立。統計學習理論基於資料(data),找出預測性函數,之後解決問題。支持向量機(Support Vector Machine)的理論基礎來自於統計學習理論。

形式定義

為所有可能的輸入組成的向量空間, 為所有可能的輸出組成的向量空間。統計學習理論認為,積空間上存在某個未知的概率分佈。訓練集由這個概率分佈中的個樣例構成,並用表示。每個都是訓練數據的一個輸入向量, 而則是對應的輸出向量。

損失函數

損失函數的選擇是機器學習算法所選的函數中的決定性因素。 損失函數也影響着算法的收斂速率。損失函數的凸性也十分重要。[1]

根據問題是回歸問題還是分類問題,我們可以使用不同的損失函數。

回歸問題

回歸問題中最常用的損失函數是平方損失函數(也被稱為L2-範數)。類似的損失函數也被用在普通最小二乘回歸。其形式是:

另一個常見的損失函數是絕對值範數(L1-範數):

分類問題

某種程度上說0-1指示函數是分類問題中最自然的損失函數。它在預測結果與真實結果相同時取0,相異時取1。對於的二分類問題,這可以表示為:

其中單位階躍函數

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.