plantejament estadístic al modelatge de la relació entre una variable dependent escalar i una altra o més d'una variable From Wikipedia, the free encyclopedia
En estadística la regressió lineal o ajust lineal és un mètode estadístic que modelitza la relació entre una variable dependent Y, les variables independents X i i un terme aleatori ε, per trobar una funció lineal que s'ajusti al màxim a la distribució de punts generada per una variable de dues dimensions.[1] Aquest model es pot expressar com:
on és la intersecció amb l'eix d'ordenades o terme "constant", les (i> 0) són els paràmetres respectius a cada variable independent, i és el nombre de paràmetres independents que cal tenir en compte en la regressió. La regressió lineal pot ser comparada amb la regressió no lineal.
La primera forma de regressions lineals documentada va ser el mètode dels mínims quadrats, el qual va ser publicat per Legendre a 1805,[2] i per Carl Friedrich Gauss a 1809.[3] El terme "mínims quadrats" prové de la descripció donada per Legendre "moindre carrés". No obstant això Gauss va assegurar que coneixia aquest mètode des de 1795.
Tant Legendre com Gauss van aplicar el mètode per determinar, a partir d'observacions astronòmiques, les òrbites de cossos al voltant del sol.[4] A 1821, Gauss va publicar un treball on desenvolupava de manera més profunda el mètode dels mínims quadrats,[5] i on s'incloïa una versió del teorema de Gauss-Markov.
El terme regressió es va utilitzar per primera vegada en l'estudi de variables antropomètriques: en comparar l'estatura de pares i fills, va resultar que els fills els pares dels quals tenien una alçada molt superior al valor mitjà tendien a igualar-se a aquest, mentre que aquells els pares dels quals eren molt baixos tendien a reduir la seva diferència respecte a l'estatura mitjana, és a dir, "tornaven" a la mitjana.[6] La constatació empírica d'aquesta propietat es va veure reforçada més tard amb la justificació teòrica d'aquest fenomen.
El terme lineal s'utilitza per a distingir de la resta de tècniques de regressió, que utilitzen models basats en qualsevol classe de funció matemàtica. Els models lineals són una explicació simplificada de la realitat, molt més àgil i amb un suport teòric per part de la matemàtica i l'estadística molt més extens.
El model lineal relaciona la variable dependent Y amb K variables explicatives (k = 1, ... K), o qualsevol transformació d'aquestes, que generen un hiperplà de paràmetres desconeguts:
(2)
on és la pertorbació aleatòria que recull tots aquells factors de la realitat no controlables o observables i que per tant s'associen amb l'atzar, i és la que confereix al model el seu caràcter estocàstic. En el cas més senzill de dues variables explicatives, l'hiperplà és una recta:
(3)
El problema de la regressió consisteix a escollir uns valors determinats per als paràmetres desconeguts , de manera que l'equació quedi completament especificada. Per a això es necessita un conjunt d'observacions. En una observació qualsevol i-èsima (i = 1, ... I) es registra el comportament simultani de la variable dependent i les variables explicatives (les pertorbacions aleatòries se suposen no observables).
(4)
Els valors escollits com estimador és dels paràmetres, , són els coeficients de regressió, sense que es pugui garantir que coincideixen amb paràmetres reals del procés generador. Per tant, en
(5)
Els valors són per la seva banda estimacions de la pertorbació aleatòria o errors.
Per poder crear un model de regressió lineal, cal que es compleixi amb els següents supòsits:[7]
Parlem de regressió lineal simple quan només es fa servir una variable independent, pel que només cal ajustar amb dos paràmetres. Són de la forma:[8]
(6)
on és l'error associat a la mesura del valor i segueixen els supòsits de manera que (mitjana zero, variància constant i igual a un i amb ).
Donat el model de regressió simple, si es calcula l'esperança (valor esperat) del valor I , s'obté:[9]
(7)
(8)
Calculant i . Per això es busquen aquests paràmetres que minimitzin
Derivant respecte a i i igualant a zero, s'obté:[9]
(9)
(10)
Obtenint dues equacions anomenades equacions normals que generen la següent solució per a tots dos paràmetres:[8]
(11)
(12)
La interpretació del paràmetre , anomenat el pendent de la recta de regressió, és que un increment en d'una unitat, s'incrementarà en unitats.
Les rectes de regressió són les rectes que millor s'ajusten al núvol de punts (o també anomenat diagrama de dispersió) generat per una distribució bivariant. Matemàticament, són possibles dues rectes de màxim ajust:[10]
(14)
(15)
El coeficient de correlació (r) de les rectes determinarà la mesura de la relació lineal. Si r és proper o igual a 1, la relació lineal positiva serà bona, si r és proper o igual a 0, es tractarà d'una absència de relació lineal, si r és proper o igual a -1, la relació lineal és negativa o inversa, és a dir quan un valor x creix, el valor y decreix. Les dues rectes de regressió s'intersequen en un punt anomenat centre de gravetat de la distribució.
Maneja diverses variables independents. Compta amb diversos paràmetres. S'expressen de la forma:[11]
(13)
on és l'error associat a la mesura del valor i segueixen els supòsits de manera que (mitjana zero, variància constant i igual a un i amb ).
La regressió lineal té molts usos pràctics. La majoria de les aplicacions es troben en el camp de la predicció o per explicar la variació de la variable de resposta.
Si l'objectiu és la predicció, la previsió o la reducció d'errors, es pot utilitzar per ajustar un model predictiu a un conjunt de dades observades de valors de la resposta i variables explicatives. Després de desenvolupar aquest model, si es recullen valors addicionals de les variables explicatives sense un valor de resposta acompanyat, el model ajustat es pot utilitzar per fer una predicció de la resposta.
Si l'objectiu és explicar la variació de la variable de resposta que es pot atribuir a la variació de les variables explicatives, l'anàlisi de regressió lineal es pot aplicar per quantificar la força de la relació entre la resposta i les variables explicatives, i en particular per determinar si algunes És possible que les variables explicatives no tinguin cap relació lineal amb la resposta, o per identificar quins subconjunts de variables explicatives poden contenir informació redundant sobre la resposta.
Una línia de tendència representa una tendència en una sèrie de dades obtingudes a través d'un llarg període. Aquest tipus de línies pot dir-nos si un conjunt de dades en particular (com per exemple, el PIB, el preu del petroli o el valor de les accions) han augmentat o decrementat en un determinat període.[12] Es pot dibuixar una línia de tendència a primera vista fàcilment a partir d'un grup de punts, però la seva posició i pendent es calcula de manera més precisa utilitzant tècniques estadístiques com les regressions lineals. Les línies de tendència són generalment línies rectes, encara que algunes variacions utilitzen polinomis de major grau depenent de la curvatura desitjada en la línia.
En medicina, les primeres proves relacionant la mortalitat amb el fumar tabac[13] van venir d'estudis que utilitzaven la regressió lineal. Els investigadors inclouen una gran quantitat de variables en la seva anàlisi de regressió en un esforç per eliminar factors que puguin produir correlacions espúries.
En el cas del tabaquisme, els investigadors van incloure l'estat socioeconòmic per assegurar que els efectes de mortalitat per tabaquisme no siguin un efecte de la seva educació o posició econòmica. No obstant, és impossible incloure totes les variables possibles en un estudi de regressió.[14][15] En l'exemple del tabaquisme, un hipotètic gen podria augmentar la mortalitat i augmentar la propensió a adquirir malalties relacionades amb el consum de tabac. Per aquesta raó, en l'actualitat les proves controlades aleatòries són considerades molt més fiables que les anàlisis de regressió.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.