Masinõppimine - Wikiwand

Masinõppimine (inglise keeles machine learning) on teadusvaldkond, mille eesmärk on välja töötada empiiriliste andmete põhjal otsuseid ja ennustusi tegevaid algoritme.

See artikkel vajab toimetamist.

Ajalugu

Masinõpe sai alguse 1950. aastatel, kui Arthur Samuel valmistas kabet mängiva programmi. Samuel oli üks esimesi, kes kasutas efektiivselt ära heuristilisi otsingumeetodeid ehk ajalise vahega õppimist. 1959. aastal avaldatud Oliver Selfridge artiklist "Pandemoonium" sai tehisintellekti valdkonnas klassika. Selfridge'i arhitektuur suutis modelleerida inimesega sarnast seaduspärasuste tuvastust. 1960. aastatel loodi esimene kunstlik närvivõrk – pertseptron. See teisendab sisendi $x$ (reaalväärtustega vektor) väljundiks $f(x)$ , mis on tavaline binaarväärtus. Pertseptroni korral on tegu lineaarse klassifitseerijaga. 1970. aastatel arendas Ross Quinlan välja ID3 algoritmi, mis genereeris otsustuspuu. ID3 on C4.5 algoritmi eelkäija. Järgmistel aastakümnetel tuli välja selgituspõhine õpe ning uuesti hakkasid populaarsust koguma tehislikud närvivõrgud. Järgmisel kahel aastakümnel arendati andmekaevet, tekstiõppimist, abistatud õpet, induktiivset loogikaprogrammeerimist ja Bayesi võrkude põhjal õppimist. Viimase kümne aasta jooksul on tekkinud tugivektor-masinad, graafilised mudelid ning palju on arendatud masinõppimist robootikas ja masinnägemises.^[1]

Remove ads

Formaalne definitsioon

Tom Michael Mitchell on öelnud masinõppimise formaalseks definitsiooniks laialt tsiteeritud lause: "Arvutiprogramm õpib kogemusest E ülesannete klassi T ja tulemuste mõõdu P suhtes, kui selle tulemuslikkus klassi T ülesannetes, nii nagu mõõdetud P kaudu, paraneb kogemusega E." ^[2]

Üldistus

Õppija põhiline eesmärk on teha üldistusi eelneva kogemustehulga põhjal.^[3] Programmi jaoks tulnud treeningandmed on suvalise tõenäosusjaotusega, kuid programm peab nende andmete põhjal eraldama informatsiooni, mis võimaldaks programmil luua kasulikke vastuseid ja teha üldiseid järeldusi.

Masinõppimine, andmebaasidest teadmiste avastamine ja andmekaeve

Neid kolme valdkonda aetakse mõnikord segi, kuna nad kasutavad tihti samu meetodeid ja kattuvad paljuski. Siiski on neil erinevusi:

Masinõppimine keskendub rohkem treeningandmetes olemasolevate omaduste põhjal ennustuste tegemisele.
Andmekaeve, mis on andmebaasidest teadmiste avastamise analüüsi osa, keskendub rohkem andmetest uute omaduste leidmisele.

Andmekaeve kasutab küll masinõppemeetodeid, kuid tihti on nende kasutamisel hoopis teine eesmärk. Samuti kasutatakse õppija täpsuse parandamiseks meetodeid andmekaevest.

Remove ads

Inimese mõju

Mõned masinõppesüsteemid proovivad andmeanalüüsi teha inimese intuitsioonita, kuid teised süsteemid kasutavad rohkem inimese ja masina koostööd. Inimese intuitsiooni pole võimalik täielikult elimineerida, kuna süsteemi disainija peab täpsustama süsteemile esitatavate andmete kuju ja andmete karakteriseerimiseks kasutatavaid mehhanisme.

Algoritmide tüübid

Masinõppe algoritmid jaotatakse oodatava tulemuse põhjal kategooriatesse:

Juhendatud masinõpe genereerib funktsiooni, mis teisendab sisendandmed soovitud väljundandmeteks. Näiteks liigituse probleemis genereerib õppija funktsiooni, mis teisendab sisendvektori klassideks, vaadates funktsiooni sisend- ja väljundnäiteid. Juhendamisega õppel peab masinale olema etteantud märgistatud treeninguandmete kogu, mille põhjal tehakse uusi järeldusi.
Juhendamata masinõppe korral proovitakse leida märgistamata andmete kogust uusi struktuure.
Vähese juhendamisega õppes kasutatakse nii märgistatud kui ka märgistamata andmeid, et luua sobiv funktsioon või klassifitseerija.
Abistatud õpe on masinõppe ala, mis tegeleb põhiliselt sellega, kuidas õppija peaks keskkonnas käituma, et maksimeerida kumulatiivset tasu. Igal teol on mõju keskkonnale ning keskkond annab tagasiside tasu vormis, mis juhib õppimisalgoritmi.
Õppima õppimine – programm õpib kogemuse põhjal uue hulga eeldusi, mida kasutatakse selliste sisendite väljundite ennustamisel, milliseid programm pole ise veel kohanud.

Remove ads

Teooria

Masinõppe algoritmide ja nende jõudluse arvutuslik analüüs on teoreetilise informaatika üks harusid, mida kutsutakse arvutuslikuks õppeteooriaks. Kuna treeninghulgad on lõplikud ja tulevik on määramatu, ei pruugita õppeteooria algoritmide jõudlust alati õigesti kirjeldada. Algoritmide jõudluse kirjeldamiseks kasutatakse tõenäosuslikke piirdeid.

Peale jõudluse piirete kasutavad arvutusliku õppimise teoreetikud algoritmi ajalist keerukust ja õppimise võimalikkust. Arvutuslikus õppeteoorias on arvutus võimalik ainult siis, kui see saavutatakse polünomiaalse ajaga. On olemas kahte liiki ajalise keerukuse tulemusi. Positiivsed tulemused näitavad, et teatud funktsioonide klasse on võimalik ära õppida polünomiaalse ajaga. Negatiivsed tulemused näitavad, et teatud klasse ei saa ära õppida polünomiaalse ajaga.

Remove ads

Meetodid

Otsustuspuu põhjal õppimine

Otsustuspuu põhjal õppimine kasutab ennustava mudelina puu andmestruktuuri, mis ennustab soovitud muutuja väärtuse mitmete sisendparameetrite põhjal.

Assotsiatsioonireeglite õppimine

Assotsiatsiooni reeglite õppimine on populaarne ja hästi uuritud meetod leidmaks suurtest andmebaasidest relatsioone eri muutujate vahel. Las $I=\{i_{1},i_{2},\ldots ,i_{n}\}$ olla esemete hulk ja $D=\{t_{1},t_{2},\ldots ,t_{m}\}$ olla tehingute hulk. Igal tehingul on oma ID ja sisaldab alamhulka $I$ elementidest. Reegel defineeritakse kui implikatsioonina $X\Rightarrow Y$ , kus $X,Y\subseteq I$ ja $X\cap Y=\emptyset$ . Näiteks kui mõne poe $I=\{\mathrm {piim,leib,margariin,liha} \}$ ja reegel on $\{\mathrm {margariin,leib} \}\Rightarrow \{\mathrm {piim} \}$ , tähendab see seda, et kui kliendid ostavad võid ja leiba, ostavad nad ka piima.

Tehislikud närvivõrgud

Tehisliku närvivõrgu õppimisalgoritm on algoritm, mis on inspireeritud bioloogiliste närvivõrkude struktuurist ja funktsioonist. Tänapäevased tehislikud närvivõrgustikud on mittelineaarsed statistilised andmemodelleerimise vahendid. Neid kasutatakse keerukate sisendite ja väljundite suhete modelleerimisel, andmetest seaduspärasuste otsimisel või mitmete muutujate ühise tõenäosusjaotuse statistilise struktuuri leidmisel.

Geneetiline programmeerimine

Geneetiline programmeerimine on bioloogilisest evolutsioonist inspireeritud metodoloogia, mille ülesanne on leida kasutaja poolt defineeritud ülesannetele neid lahendavaid programme. See on geneetiliste algoritmide spetsialiseerumine, kus iga osa on eraldi arvutiprogramm. Geneetiline programmeerimine on masinõppe nipp, mida kasutatakse arvutiprogrammide hulga optimeerimiseks nende suutlikkuse järgi etteantud ülesannet täita. Algselt genereeritakse suvaliselt programmide kogum ning aja möödudes jäävad valikulise protsessi toimel järele ainult parimad.^[4]

Induktiivse loogika programmeerimine

Induktiivse loogika programmeerimine on üks lähenemine reeglite õppimisele, kasutades loogilise programmeerimise meetodit ühtse esindajana andmetele, taustainfole ja hüpoteesidele. Kui ette on antud loogilise andmebaasina taustainfo ja hulk andmeid, tuletab induktiivse loogika programmeerimise süsteem hüpotiseeritud loogikaprogrammi, milles on kõik positiivsed ja mitte ühtegi negatiivset näidet.

Tugivektor-masinad

Tugivektor-masinad on hulk seotud juhendamisega õppe meetodeid, mida kasutatakse klassifikatsiooniks ja regressiooniks. Kui ette on antud hulk treeningandmeid, kus kõik andmed on eraldi kategooriatesse kuuluvatena märgistatud, siis tugivektor-masina treenimisalgoritm ehitab mudeli, mis ennustab, kuhu kategooriasse uus andmetükk kuulub. Tugivektor-masin loob hüpertasandi või hüpertasandite hulga mitmedimensioonilises ruumis.

Klasterdamine

Thumb — Klasteranalüüsi tulemusel kolmeks klastriks eraldatud sisendandmed

Klasteranalüüs või klasterdamine on mõõtmiste hulga eraldamine alamhulkadeks ehk klastriteks, nii et ühes klastris oleks kõik mõõtmised kuidagi omavahel seotud. Klasterdamine on üks juhendamata õppe meetoditest ja tavaline statistilise andmeanalüüsi meetod.

Bayesi võrgud

Bayesi võrk ehk suunatud atsükliline graafiline mudel on tõenäosuslik graafiline mudel, mis esindab juhuslike muutujate hulka ja nende tingitud sõltumatust suunatud atsüklilise graafi kaudu. Näiteks suudab Bayesi võrk esindada haiguste ja sümptomite vahelist tõenäosuslikke suhteid. Kui ette on antud sümptomid, siis Bayesi võrk suudab välja arvutada eri haiguste olemasolu tõenäosust.

Abistatud õpe

Abistatud õpe tegeleb sellega, kuidas õppija või agent peaks keskkonnas tegutsema, et maksimeerida pikas perspektiivis tasu. See algoritm üritab leida strateegia, mis teisendab keskkonna olekud nendeks tegudeks, mida agent peaks sooritama. Abistatud õppes, erinevalt juhendamisega õppest, ei anta ette korrektseid sisend- ja väljundpaare ega parandata vähem kui optimaalset käitumist.

Regressioonanalüüs

Regressioonanalüüs sisaldab eri tehnikaid ja meetodeid, et modelleerida muutujatevahelisi seoseid. Kasutatakse lineaarregressiooni ja polünomiaalset regressiooni.

Remove ads

Rakendusvaldkonnad

Masinõpe on kasutusel järgmistes valdkondades^[5]:

masinnägemine
süntaktiline mustrituvastus
otsingumootorid
inimkeele analüüs
meditsiinilised diagnoosid
bioinformaatika
keemiline informaatika
krediitkaardipettuste avastamine
aktsiaturgude analüüs
DNA järjestuse klassifitseerimine
kõne- ja käsitsikirjatuvastus
objektituvastus masinnägemises
arvutimängud
tarkvaraarendus
adaptiivsed veebilehed
robootika
arvutuslik finants
arvamuse analüüs
go

Tarkvara

RapidMiner, KNIME, Weka, ODM, Shogun Toolbox, Orange, Apache Mahout, scikit-learn ja SVM-Light on näiteid masinõppe tarkvaraplatvormidest.

Internetis on võimalus masinõpet õppida Andrew Ng veebikursusel ml-class.org, mis põhineb Stanfordi ülikool kursusel, mille loengumaterjalid on saadaval tasuta. Kursusel kasutatakse GNU Octave'i platvormi.

Ajakirjad ja konverentsid

Machine Learning (ajakiri)
Journal of Machine Learning Research (ajakiri)
Neural Computation (ajakiri)
Journal of Intelligent Systems (ajakiri)
International Conference on Machine Learning ehk ICML (konverents)
Neural Information Processing Systems ehk NeurIPS (konverents)

Vaata ka

Viited

Loading content...

Lisalugemist

Loading content...

Välislingid

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads