Vahvistusoppiminen

Vahvistusoppiminen (eli Trial and error -oppiminen)^[1] on koneoppimisen ongelmanratkaisutekniikka, jossa agentti tutkii ympäristöä, jonka tilan se havaitsee, ja toimii sen mukaisesti. Ympäristö antaa toiminnan mukaan palautteen, joka voi olla positiivista tai negatiivista. Algoritmi pyrkii löytämään ongelmaan ratkaisun, joka tuottaa eniten positiivista palautetta. Ongelman ympäristö on tyypillisesti äärellinen Markovin päätösprosessi.

Vahvistusoppiminen eroaa ohjatusta oppimisesta siten, että oikeita syöte–tulos-pareja ei tarvita, eikä heikkoja ratkaisuja varsinaisesti korjata. Tavoitteena voi olla elinikäinen oppiminen, johon kuuluu tasapainottelu tutkimattomien polkujen kartoittamisen ja tunnettujen reittien käyttämisen välillä.

Vahvistusoppimisen perusmalliin kuuluvat:

tilajoukko S
toimintojoukko A ja
palkkioiden joukko, jossa r $\in \mathbb {R}$ .

Kullakin hetkellä t agentti havaitsee tilan s_t $\in$ S ja mahdollisten toimintojen joukon A(s_t). Agentti valitsee toiminnon a $\in$ A(s_t) ja saa ympäristöltä uuden tilan s_t+1 sekä palkkion r_t+1. Vuorovaikutuksen perusteella agentti muodostaa menettelytavan π:S $\rightarrow$ A, joka maksimoi summan R=r₀+r₁+...+r_n Markovin päätösprosesseille joilla on lopputila, tai summan R=Σ_tγ^tr_t prosesseille, joilla ei ole lopputilaa.

[1]

Vahvistusoppiminen

Katso myös

Lähteet

Wikiwand - on