Lineaarregressioon

Otsitav tulemus

Ühe tunnuse põhjal kõige paremini sobiva sirge võrrandit kujutatakse järgmiselt:

${\check {y}}=b_{0}+b_{1}\cdot x$ ,

kus ${\check {y}}$ on ennustatud väärtus, $x$ on väärtus, mille põhjal ennustatakse, $b_{1}$ on tõus ning $b_{0}$ on nullkoht.^[3] Suuremates dimensioonides mitmete vabade muutujate kasutamise puhul nimetatakse selle võrrandi tulemust tasandiks või hüpertasandiks. Kui kasutusel on $d$ vabat muutujat $x_{1},...,x_{d}$ , on tarvis leida väärtused $b_{0},b_{1},...,b_{d}$ , mida nimetatakse ka kaaludeks või koefitsientideks. Et neid väärtusi saab kujutada vektoritena, on ülaltoodud lihtne võrrand tihtipeale asendatud vektor- ja maatrikstehetega, mis võtavad arvesse mitmete vabade muutujatega regressiooni arvutamist.^[4]

Andmetele sobitamine

Enamasti kasutatakse lineaarregressiooni sirge sobitamiseks vähimruutude meetodit, mida nimetatakse ka tavaliseks vähimruutude meetodiks.^[4] Selle meetodi abil arvutatakse välja kõige paremini sobiv sirge, minimeerides iga andmepunkti ja vastava sirge väärtuste vahede ruutude summat piki vertikaaltelge. Vahede suurused võetakse ruutu, et kõik tulemused oleksid positiivsete väärtustega ega nulliks teineteist.^[1] Teisisõnu otsitakse väärtusi $b_{0}$ ja $b_{1}$ nii, et minimeerida väärtust $Q$ , mis väljendub valemina^[3] $Q=\sum _{i=1}^{n}(y_{i}-{\check {y}}_{i})^{2},$ kus $y_{i}$ tähistab märgendi tegelikku väärtust ning $n$ vaadeldava andmehulga suurust.

Võõrväärtus, ebatüüpiline vaatlus ja erind

Andmestikule leitud regressioonisirgest kaugel asuvaid üksikuid väärtusi nimetatakse võõrväärtusteks. Võõrväärtuste näol on tegemist vaadeldud andmetega, mis kirjeldavad ebatüüpilisi juhtumeid või erindeid ja mis mõjutavad regressioonisirge asendit väga olulisel määral. Mida kaugemal on võõrväärtus teistest mööda horisontaaltelge, seda suuremat mõju avaldab see regressioonisirge tõusule. Selliste võõrväärtuste eemaldamist nimetatakse ka müra vähendamiseks andmestikus.^[1]

Kui üksiku vaatluse standardiseeritud jäägi absoluutväärtus^[5]

$|u_{i}^{std}|>2$ on tegemist ebatüübilise väärtusega
$|u_{i}^{std}|>3$ on tegemist erindiga.

Gradientlaskumine

Enam kui ühe sisendtunnusega lineaarregressioonimudelit treenides võib optimeerimiseks kasutada gradientlaskumist. Gradientlaskumise kasutamine näeb ette koefitsientide algväärtustamist suvaliste arvudega ning seejärel itereerides nende väärtuste muutmist sedasi, et need minimeeriks vigade suurust.^[4]

Regulariseerimine

Lineaarregressioonimudeli liigse keerukuse vähendamiseks kasutatakse regulariseerimismeetodeid, millest levinumad on Lasso ja Ridge. Nende rakendamise tagajärjel muutub osade koefitsientide väärtus nulliks, st mõnede tunnuste osatähtsus muutub olematuks. Masinõppes peetakse liiga keerukaks mudeleid, mis sisaldavad palju reegleid ning tihtipeale on need ülesobitatud treeninguandmetele.^[4]

Ekstrapoleerimine

Lineaarregressioonimudeli sobitamisel andmestikule on tarvis tähelepanu pöörata andmestikus esinevate väärtuste vahemikule. Regressioonimudeli kasutamine andmetel, mis jäävad selle treeninguvahemikust välja, võib päädida uskumatute tulemustega, sest mudel peab ennustamiseks ekstrapoleerima.^[1]