From Wikipedia, the free encyclopedia
«Ամրապնդման ուսուցումը» (անգլ.՝ Reinforcement learning) մեքենայական ուսուցման ոլորտ է, որը կոնկրետ իրավիճակում պարգևատրումը առավելագույնի հասցնելու համար կոնկրետ գործողություններ է ձեռնարկում։ Ամրապնդման ուսուցումը մեքենայական ուսուցման երեք հիմնական օրինակներից մեկն է՝ վերահսկվող ուսուցման և չվերահսկվող ուսուցման հետ մեկտեղ։
Ամրապնդման ուսուցումը տարբերվում է վերահսկվող ուսուցումից նրանով, որ կարիք չկա պիտակավորված մուտքային/ելքային զույգերի ներկայացման և ոչ օպտիմալ գործողությունների հստակ ուղղման կարիք։ Փոխարենը շեշտը դրվում է հետախուզման (չարտացվող տարածքի) և շահագործման (ներկայիս գիտելիքների) միջև հավասարակշռություն գտնելու վրա։ Մասամբ վերահսկվող ԱՈւ ալգորիթմները կարող են համատեղել վերահսկվող և ԱՈւ ալգորիթմների առավելությունները։
Շրջակա միջավայրը սովորաբար նշվում է Մարկովի որոշման գործընթացի (MDP) տեսքով, քանի որ այս համատեքստում ուժեղացման ուսուցման շատ ալգորիթմներ օգտագործում են դինամիկ ծրագրավորման տեխնիկա։ Դասական դինամիկ ծրագրավորման մեթոդների և ամրապնդման ուսուցման ալգորիթմների միջև հիմնական տարբերությունն այն է, որ վերջիններս չեն ենթադրում MDP-ի ճշգրիտ մաթեմատիկական մոդելի իմացություն և թիրախավորում են խոշոր MDP-ներին, որտեղ ճշգրիտ մեթոդները դառնում են անիրագործելի[1]։
Խնդիրը հետևյալն է. մենք ունենք գործակալ և պարգև, որոնց միջև կան բազմաթիվ խոչընդոտներ։ Գործակալը պետք է գտնի մրցանակին հասնելու լավագույն հնարավոր ճանապարհը։ Հաջորդող օրինակը ավելի հեշտությամբ է բացատրում խնդիրը։
Վերոնշյալ պատկերը ցույց է տալիս ռոբոտը, ադամանդը և կրակը։ Ռոբոտի նպատակն է ստանալ պարգևը, որը ադամանդն է և խուսափել կրակի խոչընդոտներից։ Ռոբոտը սովորում է՝ փորձելով բոլոր հնարավոր ուղիները, այնուհետև ընտրելով այն ճանապարհը, որը նրան պարգևատրում է նվազագույն խոչընդոտներով։ Յուրաքանչյուր ճիշտ քայլ ռոբոտին պարգև կտա, իսկ յուրաքանչյուր սխալ քայլը կհանի ռոբոտի պարգևը։ Ընդհանուր պարգևը կհաշվարկվի, երբ այն հասնի վերջնական նպատակին[2]։
ԱՈՒ-ի հայտնիության հիմնական գրավականը դա սովորական ալգորիթմ է, որն օգտագործվում է տարբեր խաղեր լուծելու և երբեմն գերմարդկային կատարողականության հասնելու համար։
Տարբեր առաջադրանքներին սահմանափակ ռեսուրսներ բաշխելու ալգորիթմների նախագծումը դժվար է և պահանջում է մարդու կողմից ստեղծված էվրիստիկա։
Վեբ համակարգում կան 100-ից ավելի կարգավորելի պարամետրեր, և պարամետրերի ճշգրտման գործընթացը պահանջում է որակավորված օպերատոր և որոշ թեստեր։
ԱՈՒ-ն կարող է կիրառվել նաև քիմիական ռեակցիաներն օպտիմալացնելու համար։ Հետազոտողները ցույց են տվել, որ իրենց մոդելը գերազանցել է ժամանակակից ալգորիթմը և ընդհանրացվել է տարբեր հիմքում ընկած մեխանիզմների վրա՝ «Քիմիական ռեակցիաների օպտիմիզացում խորը ամրապնդման ուսուցմամբ» հոդվածում։
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.