Vahvistusoppiminen
From Wikipedia, the free encyclopedia
From Wikipedia, the free encyclopedia
Vahvistusoppiminen (eli Trial and error -oppiminen)[1] on koneoppimisen ongelmanratkaisutekniikka, jossa agentti tutkii ympäristöä, jonka tilan se havaitsee, ja toimii sen mukaisesti. Ympäristö antaa toiminnan mukaan palautteen, joka voi olla positiivista tai negatiivista. Algoritmi pyrkii löytämään ongelmaan ratkaisun, joka tuottaa eniten positiivista palautetta. Ongelman ympäristö on tyypillisesti äärellinen Markovin päätösprosessi.
Vahvistusoppiminen eroaa ohjatusta oppimisesta siten, että oikeita syöte–tulos-pareja ei tarvita, eikä heikkoja ratkaisuja varsinaisesti korjata. Tavoitteena voi olla elinikäinen oppiminen, johon kuuluu tasapainottelu tutkimattomien polkujen kartoittamisen ja tunnettujen reittien käyttämisen välillä.
Vahvistusoppimisen perusmalliin kuuluvat:
Kullakin hetkellä t agentti havaitsee tilan st S ja mahdollisten toimintojen joukon A(st). Agentti valitsee toiminnon aA(st) ja saa ympäristöltä uuden tilan st+1 sekä palkkion rt+1. Vuorovaikutuksen perusteella agentti muodostaa menettelytavan π:SA, joka maksimoi summan R=r0+r1+...+rn Markovin päätösprosesseille joilla on lopputila, tai summan R=Σtγtrt prosesseille, joilla ei ole lopputilaa.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.