強化學習

強化學習koeng4 faa3 hok6 zaap6（英文：reinforcement learning，RL）係機械學習上嘅一種學習範式。

喺強化學習嘅過程當中，研究者唔會有數據 ${\displaystyle \textstyle x}$ 俾個機械學習程式睇同跟住學－唔似得監督式或者非監督式學習，而係俾個程式自主噉同周圍環境互動（個環境可以係現場，又可以係一個模擬嘅環境）：喺每一個時間點 ${\displaystyle \textstyle t}$ ，個程式會產生一個用輸出嘅數字表示嘅動作，而跟住佢周圍個環境會俾返一啲 feedback－簡單啲講就係話返俾個程式聽，佢個動作啱唔啱。而個程式跟手就會根據呢個 feedback 計吓，睇吓要點樣改佢嗰啲參數，先可以令到下次佢做行動嗰陣得到正面回應嘅機會率高啲^[1]^[2]。

[1]

[2]