提升方法(Boosting)是一種機器學習中的集成學習元啟發算法,主要用來減小監督式學習偏差並且也減小方差[1],以及一系列將弱學習器轉換為強學習器的機器學習算法[2]。面對的問題是邁可·肯斯(Michael Kearns)和萊斯利·瓦利安特(Leslie Valiant)提出的:[3]一組「弱學習者」的集合能否生成一個「強學習者」?弱學習者一般是指一個分類器,它的結果只比隨機分類好一點點;強學習者指分類器的結果非常接近真值。

Robert Schapire在1990年的一篇論文中[4]對肯斯和瓦利安特的問題的肯定回答在機器學習和統計方面產生了重大影響,最顯着的是導致了提升方法的發展[5]

提升算法

大多數提升算法包括由迭代使用弱學習分類器組成,並將其結果加入一個最終的成強學習分類器。加入的過程中,通常根據它們的分類準確率給予不同的權重。加和弱學習者之後,數據通常會被重新加權,來強化對之前分類錯誤數據點的分類。

Thumb
插圖展示了提升算法背後的直覺,由並行學習器和加權數據集組成。

一個經典的提升算法例子是AdaBoost。一些最近的例子包括LPBoostTotalBoostBrownBoostMadaBoostLogitBoost。許多提升方法可以在AnyBoost框架下解釋為在函數空間利用一個凸的誤差函數作梯度下降

批評

2008年,谷歌的菲利普·隆(Phillip Long)與哥倫比亞大學的羅可·A·瑟維迪歐(Rocco A. Servedio)發表論文指出這些方法是有缺陷的:在訓練集有錯誤的標記的情況下,一些提升算法雖會嘗試提升這種樣本點的正確率,但卻無法產生一個正確率大於1/2的模型。[6]

相關條目

實現

  • Orange, a free data mining software suite, module Orange.ensemble頁面存檔備份,存於互聯網檔案館
  • Weka is a machine learning set of tools that offers variate implementations of boosting algorithms like AdaBoost and LogitBoost
  • R package GBM頁面存檔備份,存於互聯網檔案館) (Generalized Boosted Regression Models) implements extensions to Freund and Schapire's AdaBoost algorithm and Friedman's gradient boosting machine.
  • jboost; AdaBoost, LogitBoost, RobustBoost, Boostexter and alternating decision trees

參考文獻

外部連結

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.