Loading AI tools
来自维基百科,自由的百科全书
強化學習(英語:Reinforcement learning,簡稱RL)是機器學習中的一個領域,強調如何基於環境而行動,以取得最大化的預期利益[1]。強化學習是除了監督學習和非監督學習之外的第三種基本的機器學習方法。與監督學習不同的是,強化學習不需要帶標籤的輸入輸出對,同時也無需對非最優解的精確地糾正。其關注點在於尋找探索(對未知領域的)和利用(對已有知識的)的平衡[2],強化學習中的「探索-利用」的交換,在多臂老虎機問題和有限MDP中研究得最多。
其靈感來源於心理學中的行為主義理論,即有機體如何在環境給予的獎勵或懲罰的刺激下,逐步形成對刺激的預期,產生能獲得最大利益的習慣性行為。這個方法具有普適性,因此在其他許多領域都有研究,例如博弈論、控制論、運籌學、信息論、仿真優化、多智能體系統、群體智能、統計學以及遺傳算法。在運籌學和控制理論研究的語境下,強化學習被稱作「近似動態規劃」(approximate dynamic programming,ADP)。在最優控制理論中也有研究這個問題,雖然大部分的研究是關於最優解的存在和特性,並非是學習或者近似方面。在經濟學和博弈論中,強化學習被用來解釋在有限理性的條件下如何出現平衡。
在機器學習問題中,環境通常被抽象為馬爾可夫決策過程(Markov decision processes,MDP),因為很多強化學習算法在這種假設下才能使用動態規劃的方法[3]。傳統的動態規劃方法和強化學習算法的主要區別是,後者不需要關於MDP的知識,而且針對無法找到確切方法的大規模MDP。[4]
由於其通用性很強,強化學習已經在諸如博弈論、控制論、運籌學、信息論、仿真優化、多智能體、群體智能和統計學等領域有了深入研究。在運籌學和控制文獻中,強化學習被稱為近似動態規劃或神經動態規劃。強化學習所感興趣的問題在最優控制(一種關注最優解的存在性、表示和求解的理論,但較少涉及學習和近似)中也有所研究,尤其是環境的數學模型難以求得的時候。在經濟學和博弈論中,強化學習可能被用來解釋在有限的理性(rationality)下如何達到平衡狀態。
基本的強化學習被建模為馬爾可夫決策過程:
規則通常是隨機的。主體通常可以觀察即時獎勵和最後一次轉換。在許多模型中,主體被假設為可以觀察現有的環境狀態,這種情況稱為「完全可觀測」(full observability),反之則稱為「部分可觀測」(partial observability)。通常,主體被允許的動作是有限的,例如,在棋盤中棋子只能上、下、左、右移動,或是使用的錢不能多於所擁有的。
強化學習的主體與環境基於離散的時間步作用。在每一個時間,主體接收到一個觀測,通常其中包含獎勵。然後,它從允許的集合中選擇一個動作,然後送出到環境中去。環境則變化到一個新的狀態,然後決定了和這個變化相關聯的獎勵。強化學習主體的目標,是得到儘可能多的獎勵。主體選擇的動作是其歷史的函數,它也可以選擇隨機的動作。
將這個主體的表現和自始自終以最優方式行動的主體相比較,它們之間的行動差異產生了「悔過」的概念。如果要接近最優的方案來行動,主體必須根據它的長時間行動序列進行推理:例如,要最大化我的未來收入,我最好現在去上學,雖然這樣行動的即時貨幣獎勵為負值。
因此,強化學習對於包含長期反饋的問題比短期反饋的表現更好。它在許多問題上得到應用,包括機器人控制、電梯調度、電信通訊、雙陸棋和西洋跳棋。[5]
強化學習的強大能力來源於兩個方面:使用樣本來優化行為,使用函數近似來描述複雜的環境。它們使得強化學習可以使用在以下的複雜環境中:
強化學習需要比較聰明的探索機制,直接隨機的對動作進行採樣的方法性能比較差。雖然小規模的馬氏過程已經被認識的比較清楚,這些性質很難在狀態空間規模比較大的時候適用,這個時候相對簡單的探索機制是更加現實的。
其中的一種方法就是 -貪婪演算法,這種方法會以比較大的概率(1-)去選擇現在最好的動作。如果沒有選擇最優動作,就在剩下的動作中隨機選擇一個。 在這裡是一個可調節的參數,更小的 意味着算法會更加貪心。[7]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.