機器學習的普遍任務就是從資料中學習和構建模型(該過程稱之為訓練),並且能夠在將來遇到的資料上進行預測[1]用於構建最終模型的資料集通常有多個;在構建模型的不同階段,通常有三種資料集:訓練集、驗證集和測試集

首先,模型在訓練集(英語:training dataset)上進行調適[2]對於監督式學習,訓練集是由用來調適參數(例如類神經網絡中神經元之間連結的權重)的範例組成的集合。[3]在實踐中,訓練集通常是由輸入向量(純量)和輸出向量(純量)組成的資料對。其中輸出向量(純量)被稱為目標或標籤。在訓練過程中,當前模型會對訓練集中的每個範例進行預測,並將預測結果與目標進行比較。根據比較的結果,學習演算法會更新模型的參數。模型調適的過程可能同時包括特徵選擇和參數估計

接下來,調適得到的模型會在第二個資料集——驗證集(英語:validation dataset)——上進行預測。[2]在對模型的超參數(例如神經網絡中隱藏層的神經元數量[3])進行調整時,驗證集提供了對在訓練集上調適得到模型的無偏評估。[4]驗證集可用於正則化中的提前停止:在驗證集誤差上升時(這是在訓練集上過適的訊號),停止訓練。[5]不過,在實踐中,由於驗證集誤差在訓練過程中會有起伏,這種做法有時不奏效。由此,人們發明了一些規則,用做判定過適更好的訊號。[5]

最後,測試集(英語:test dataset)可被用來提供對最終模型的無偏評估。[4]若測試集在訓練過程中從未用到(例如,沒有被用在交叉驗證當中),則它也被稱之為預留集

參考文獻

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.