From Wikipedia, the free encyclopedia
Lineaarregressioon on statistiline meetod, mille abil saab lähendada muutujate vahelisi seoseid. Lineaarregressiooni kasutatakse näiteks masinõppes. Selle tarbeks leitakse sobiv lineaarfunktsioon, mis vaadeldud andmete vahelist seost piisaval määral kirjeldab[1]. Ennustada võib nii ühe kui ka mitme tunnuse põhjal. Ühe tunnuse ehk vaba muutuja põhjal ennustamise korral on tegemist lihtsa lineaarregressiooniga ning mitme puhul mitmekordse lineaarregressiooniga.[2]
Ühe tunnuse põhjal kõige paremini sobiva sirge võrrandit kujutatakse järgmiselt:
,
kus on ennustatud väärtus, on väärtus, mille põhjal ennustatakse, on tõus ning on nullkoht.[3] Suuremates dimensioonides mitmete vabade muutujate kasutamise puhul nimetatakse selle võrrandi tulemust tasandiks või hüpertasandiks. Kui kasutusel on vabat muutujat , on tarvis leida väärtused , mida nimetatakse ka kaaludeks või koefitsientideks. Et neid väärtusi saab kujutada vektoritena, on ülaltoodud lihtne võrrand tihtipeale asendatud vektor- ja maatrikstehetega, mis võtavad arvesse mitmete vabade muutujatega regressiooni arvutamist.[4]
Enamasti kasutatakse lineaarregressiooni sirge sobitamiseks vähimruutude meetodit, mida nimetatakse ka tavaliseks vähimruutude meetodiks.[4] Selle meetodi abil arvutatakse välja kõige paremini sobiv sirge, minimeerides iga andmepunkti ja vastava sirge väärtuste vahede ruutude summat piki vertikaaltelge. Vahede suurused võetakse ruutu, et kõik tulemused oleksid positiivsete väärtustega ega nulliks teineteist.[1] Teisisõnu otsitakse väärtusi ja nii, et minimeerida väärtust , mis väljendub valemina[3]kus tähistab märgendi tegelikku väärtust ning vaadeldava andmehulga suurust.
Andmestikule leitud regressioonisirgest kaugel asuvaid üksikuid väärtusi nimetatakse võõrväärtusteks. Võõrväärtuste näol on tegemist vaadeldud andmetega, mis kirjeldavad ebatüüpilisi juhtumeid või erindeid ja mis mõjutavad regressioonisirge asendit väga olulisel määral. Mida kaugemal on võõrväärtus teistest mööda horisontaaltelge, seda suuremat mõju avaldab see regressioonisirge tõusule. Selliste võõrväärtuste eemaldamist nimetatakse ka müra vähendamiseks andmestikus.[1]
Kui üksiku vaatluse standardiseeritud jäägi absoluutväärtus[5]
Enam kui ühe sisendtunnusega lineaarregressioonimudelit treenides võib optimeerimiseks kasutada gradientlaskumist. Gradientlaskumise kasutamine näeb ette koefitsientide algväärtustamist suvaliste arvudega ning seejärel itereerides nende väärtuste muutmist sedasi, et need minimeeriks vigade suurust.[4]
Lineaarregressioonimudeli liigse keerukuse vähendamiseks kasutatakse regulariseerimismeetodeid, millest levinumad on Lasso ja Ridge. Nende rakendamise tagajärjel muutub osade koefitsientide väärtus nulliks, st mõnede tunnuste osatähtsus muutub olematuks. Masinõppes peetakse liiga keerukaks mudeleid, mis sisaldavad palju reegleid ning tihtipeale on need ülesobitatud treeninguandmetele.[4]
Lineaarregressioonimudeli sobitamisel andmestikule on tarvis tähelepanu pöörata andmestikus esinevate väärtuste vahemikule. Regressioonimudeli kasutamine andmetel, mis jäävad selle treeninguvahemikust välja, võib päädida uskumatute tulemustega, sest mudel peab ennustamiseks ekstrapoleerima.[1]
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.