Regressione lineare

La regressione formalizza e risolve il problema di una relazione funzionale tra variabili misurate sulla base di dati campionari estratti da un'ipotetica popolazione infinita. Originariamente Galton utilizzava il termine come sinonimo di correlazione, tuttavia oggi in statistica l'analisi della regressione è associata alla risoluzione del modello lineare. Per la loro versatilità, le tecniche della regressione lineare trovano impiego nel campo delle scienze applicate: astronomia, chimica, geologia, biologia, fisica, ingegneria, medicina, nonché nelle scienze sociali: economia, linguistica, psicologia e sociologia.

Più formalmente, in statistica la regressione lineare rappresenta un metodo di stima del valore atteso condizionato di una variabile dipendente, o endogena, $Y$ , dati i valori di altre variabili indipendenti, o esogene, $X_{1},\ldots ,X_{k}$ : $\mathbb {E} [Y|X_{1},\ldots ,X_{k}]$ . L'uso dei termini endogeno/esogeno è talvolta criticato, in quanto implicherebbe una nozione di causalità che l'esistenza di una regressione non prevede; in determinati contesti, provocherebbe inoltre confusione, essendo ad esempio il concetto di esogeneità in econometria formalmente definito tramite l'ipotesi di ortogonalità alla base delle proprietà statistiche della regressione lineare col metodo dei minimi quadrati.

Remove ads

Origini storiche

Riepilogo

Prospettiva

La prima, e ancora popolare, forma di regressione lineare è quella basata sul metodo dei minimi quadrati (si veda oltre). La prima pubblicazione contenente un'applicazione del metodo nota è datata 1805, a nome di Adrien-Marie Legendre; Carl Friedrich Gauss elabora indipendentemente lo stesso metodo, pubblicando le sue ricerche nel 1809. Sebbene Gauss sostenne di avere sviluppato il metodo sin dal 1795, la paternità delle sue applicazioni in campo statistico è normalmente attribuita a Legendre; lo stesso termine minimi quadrati deriva dall'espressione francese, utilizzata da Legendre, moindres carrés.

Sia Gauss che Legendre applicano il metodo al problema di determinare, sulla base di osservazioni astronomiche, le orbite di corpi celesti intorno al sole. Eulero aveva lavorato allo stesso problema, con scarso successo, nel 1748. Nel 1821 Gauss pubblica un ulteriore sviluppo del metodo dei minimi quadrati, proponendo una prima versione di quello che è oggi noto come teorema di Gauss-Markov.

L'origine del termine regressione è storicamente documentata. L'espressione reversione era usata nel XIX secolo per descrivere un fenomeno biologico, in base al quale la progenie di individui eccezionali tende in media a presentare caratteristiche meno notevoli di quelle dei genitori, e più simili a quelle degli antenati più remoti. Francis Galton studiò tale fenomeno, applicandovi il termine, forse improprio, di regressione verso la media (o la mediocrità).

Per Galton l'espressione regressione ha solo tale significato, confinato all'ambito biologico. Il suo lavoro (1877, 1885) fu in seguito esteso da Karl Pearson e George Udny Yule a un contesto statistico più generale (1897, 1903); i lavori di Pearson e Yule ipotizzano che la distribuzione congiunta delle variabili dipendenti e indipendenti abbia natura gaussiana. Tale ipotesi è in seguito indebolita da Ronald Fisher, in lavori del 1922 e 1925. Fisher in particolare ipotizza che la distribuzione condizionata della variabile dipendente sia gaussiana, il che non implica necessariamente che così sia per quella congiunta di variabili dipendenti e indipendenti. Sotto tale profilo, la formulazione di Fisher è più vicina a quella di Gauss del 1821.

Remove ads

Regressione lineare semplice

Riepilogo

Prospettiva

Definizione

Il modello di regressione lineare è:^[1]

Y_{i}=\beta _{0}+\beta _{1}X_{i}+u_{i},

dove:

$i$ varia tra le osservazioni, $i=1,\ldots ,n$ ;
$Y_{i}$ è la variabile dipendente;
$X_{i}$ è la variabile indipendente o regressore;
$\beta _{0}+\beta _{1}X$ è la retta di regressione o funzione di regressione della popolazione;
$\beta _{0}$ è l'intercetta della retta di regressione della popolazione;
$\beta _{1}$ è il coefficiente angolare della retta di regressione della popolazione;
$u_{i}$ è l'errore statistico.

Possiede delle peculiari assunzioni OLS.

Illustrazione del metodo

Per ogni osservazione campionaria si dispone di una determinazione $Y$ e di $k$ determinazioni non stocastiche $X_{1},X_{2},\ldots ,X_{k}$ . Si cerca quindi una relazione di tipo lineare tra la variabile $Y$ e le $k$ variabili deterministiche. Una prima analisi può essere condotta considerando un modello semplice a due variabili (si suppone in pratica che $k$ sia uguale a $1$ ). Un tipico esempio è riscontrabile dall'esperienza economica considerando la relazione tra Consumi ( $C$ ) e Reddito ( $Y$ ). Ricercando una relazione funzionale in cui i consumi siano "spiegati" dal reddito si può ricorrere alla relazione lineare:

C=f(Y)

generica relazione che caratterizza i consumi;

C=a+bY

relazione lineare;

dove $a$ rappresenta l'intercetta e $b$ la pendenza della retta interpolatrice.

Stime dei parametri nel caso bivariato

Generalizzando il problema a due variabili $x$ e $y$ , scriveremo:

y_{i}=a+bh(x_{i})+\varepsilon _{i},

$h(x)$ è una generica funzione di $x$ e comunemente si assume $h(x)=x$ . Ponendo tale condizione la formula diviene:

y_{i}=a+bx_{i}+\varepsilon _{i}.

Quindi la variabile dipendente $y$ viene "spiegata" attraverso una relazione lineare della variabile indipendente $x$ (cioè: $a+bx$ ) e da una quantità casuale $\varepsilon _{i}$ .

Il problema della regressione si traduce nella determinazione di $a$ e $b$ in modo da esprimere al ‘meglio' la relazione funzionale tra $y$ e $x$ . Per avvalorare di un significato statistico la scelta dei coefficienti occorre realizzare alcune ipotesi sul modello lineare di regressione:

$x$ è una variabile deterministica;
$\mathbb {E} (\varepsilon _{i})=0;$
$\sigma ^{2}(\varepsilon _{i})$ costante per ogni $i;$
$\sigma (\varepsilon _{i};\varepsilon _{j})=0,\ \forall j\neq i.$

Date queste ipotesi si calcolano i coefficienti $a$ e $b$ secondo il metodo dei minimi quadrati (in inglese Ordinary Least Squares, o OLS, da cui il riferimento agli stimatori di seguito ottenuti come agli stimatori OLS) proposto da Gauss; detta:

S=S(a,b)=\sum _{i=1}^{N}\varepsilon _{i}^{2}=\sum _{i=1}^{N}(y_{i}-a-bx_{i})^{2},

le stime si ottengono risolvendo:

\{a,b\}=\arg \min _{a,b}S(a,b).

Le soluzioni si ricavano uguagliando a zero le derivate parziali di $S$ rispetto ad $a$ e $b$ :

{\frac {\partial S}{\partial a}}=-2\sum _{i=1}^{N}(y_{i}-a-bx_{i})=0,

{\frac {\partial S}{\partial b}}=-2\sum _{i=1}^{N}(y_{i}-a-bx_{i})x_{i}=0.

Dove $N$ denota il numero delle osservazioni.

Separando le sommatorie per isolare i termini $a$ e $b$ , si ottiene:

aN+b\sum _{i=1}^{N}x_{i}=\sum _{i=1}^{N}y_{i}

a\sum _{i=1}^{N}x_{i}+b\sum _{i=1}^{N}x_{i}^{2}=\sum _{i=1}^{N}x_{i}y_{i},

da cui si ricavano le soluzioni:

b={\frac {N\sum _{i}x_{i}y_{i}-\sum _{i}x_{i}\sum _{i}y_{i}}{N\sum _{i}x_{i}^{2}-(\sum _{i}x_{i})^{2}}}={\frac {S_{xy}}{S_{xx}}}={\frac {\sigma (x,y)}{\sigma ^{2}(x)}}

a={\frac {\sum _{i}y_{i}\sum _{i}x_{i}^{2}-\sum _{i}x_{i}\sum _{i}x_{i}y_{i}}{N\sum _{i}x_{i}^{2}-(\sum _{i}x_{i})^{2}}}={\bar {y}}-b{\bar {x}}.

Per il calcolo effettivo di $a$ e $b$ , possiamo introdurre il concetto di medie aritmetiche ${\bar {x}}$ e ${\bar {y}},$ rispettivamente dei valori $x_{i}$ e $y_{i},$ e il concetto di scarti dei valori delle medie aritmetiche, per cui posto:

x_{i}'=x_{i}-{\bar {x}},

y_{i}'=y_{i}-{\bar {y}},

si ha:

\sum _{i=1}^{N}x_{i}'=0,

\sum _{i=1}^{N}y_{i}'=0.

Sostituendo nella seconda equazione dei sistema, si ottiene quanto segue:

b={\frac {N\sum _{i}(x_{i}'+{\bar {x}})(y_{i}'+{\bar {y}})-\sum _{i}(x_{i}'+{\bar {x}})\sum _{i}(y_{i}'+{\bar {y}})}{N\sum _{i}(x_{i}'+{\bar {x}})^{2}-(\sum _{i}(x_{i}'+{\bar {x}}))^{2}}}

={\frac {N\sum _{i}x_{i}'y_{i}'+N{\bar {x}}\sum _{i}y_{i}'+N{\bar {y}}\sum _{i}x_{i}'+N^{2}{\bar {x}}{\bar {y}}-(\sum _{i}x_{i}'+N{\bar {x}})(\sum _{i}y_{i}'+N{\bar {y}})}{N\sum _{i}(x_{i}'^{2}+2{\bar {x}}x_{i}'+{\bar {x}}^{2})-(\sum _{i}x_{i}'+N{\bar {x}})^{2}}}

={\frac {N\sum _{i}x_{i}'y_{i}'+N{\bar {x}}\sum _{i}y_{i}'+N{\bar {y}}\sum _{i}x_{i}'+N^{2}{\bar {x}}{\bar {y}}-(\sum _{i}x_{i}'+N{\bar {x}})(\sum _{i}y_{i}'+N{\bar {y}})}{N\sum _{i}x_{i}'^{2}+2N{\bar {x}}\sum _{i}x_{i}'+N\sum _{i}{\bar {x}}^{2}-(\sum _{i}x_{i}'+N{\bar {x}})^{2}}}

={\frac {N\sum _{i}x_{i}'y_{i}'+N^{2}{\bar {x}}{\bar {y}}-(N{\bar {x}})(N{\bar {y}})}{N\sum _{i}x_{i}'^{2}+N\sum _{i}{\bar {x}}^{2}-(N{\bar {x}})^{2}}}

={\frac {N\sum _{i}x_{i}'y_{i}'+N^{2}{\bar {x}}{\bar {y}}-N^{2}{\bar {x}}{\bar {y}}}{N\sum _{i}x_{i}'^{2}+NN{\bar {x}}^{2}-N^{2}{\bar {x}}^{2}}}

={\frac {\sum _{i}x_{i}'y_{i}'}{\sum _{i}x_{i}'^{2}}}

={\frac {\sum _{i}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i}(x_{i}-{\bar {x}})^{2}}},

mentre dalla prima equazione:

a={\frac {\sum _{i}y_{i}}{N}}-b{\frac {\sum _{i}x_{i}}{N}}={\bar {y}}-b{\bar {x}}.

Essendo la varianza osservata data da

S_{xx}=\sigma ^{2}(x)={\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-{\bar {x}})^{2}

e la covarianza osservata da

S_{xy}=\sigma (x,y)={\frac {1}{N}}\sum _{i=1}^{N}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}}),

i parametri $a$ e $b$ si possono scrivere nella forma

b=S_{xy}/S_{xx},

a={\bar {y}}-b{\bar {x}}.

Infine, sostituendo $a$ nell'equazione della retta di regressione $y=a+bx$ , otteniamo la seguente espressione:

y-{\bar {y}}=b(x-{\bar {x}}),

da cui si deduce che la retta passa per il punto $({\bar {x}},{\bar {y}})$ le cui coordinate sono le medie aritmetiche.

Correlazione

Invertendo il ruolo di $y$ e $x$ , possiamo ottenere la retta di regressione di $x$ rispetto a $y$ :

x=a_{2}+b_{2}y.

Le due rette di regressione $y=a_{1}+b_{1}x$ e $x=a_{2}+b_{2}y$ sono in relazione tra loro.

Le due rette coincidono quando tutti i punti del diagramma a dispersione appartengono ad una stessa retta, mentre quanto maggiore è la dispersione tanto maggiore è l'angolo che esse formano.

La misura dell'intensità e del legame di correlazione tra le due variabili è rappresentata dal coefficiente di correlazione lineare di Bravais-Pearson:

r=\pm {\sqrt {b_{1}b_{2}}}

media geometrica dei due coefficienti di regressione, preceduta dal segno $+$ se i due coefficienti sono positivi, dal segno $-$ se sono negativi.

Riprendendo i concetti di varianza e covarianza introdotti in precedenza, essa può anche essere espressa come:

r=\pm {\sqrt {{\frac {\sigma _{xy}}{\sigma _{x}^{2}}}{\frac {\sigma _{xy}}{\sigma _{y}^{2}}}}};

r={\frac {\sigma _{xy}}{\sigma _{x}\sigma _{y}}}.

Giustificazione probabilistica del metodo di regressione con i minimi quadrati

Si consideri il seguente problema teorico: date due variabili casuali $X$ e $Y$ , quale è il "migliore" stimatore per il valore atteso di $Y$ , ossia quale stimatore presenta lo scarto quadratico medio (o MSE, dall'inglese Mean Squared Error) minimo?

Se si utilizza uno stimatore affine che sfrutta l'informazione relativa alla variabile casuale $X$ allora $Y=a+bX$ , è possibile dimostrare che lo scarto quadratico medio $\mathbb {E} \left[\left(Y-a-bX\right)^{2}\right]$ è minimizzato se:

b={\frac {\sigma (X,Y)}{\sigma ^{2}(X)}};\quad a=\mathbb {E} [Y]-b\mathbb {E} [X]=\mathbb {E} [Y]-{\frac {\sigma (X,Y)}{\sigma ^{2}(X)}}\mathbb {E} [X].

Tale osservazione fornisce una giustificazione di tipo probabilistico alle espressioni proposte sopra; si veda oltre per un'analisi formale, nel caso multivariato.

Osservazioni sul metodo di stima

Il metodo dei minimi quadrati è esaminato nel caso bivariato, deriva una retta che interpola uno scatter di punti minimizzando la somma dei quadrati delle distanze $\varepsilon _{i}$ dei punti stessi dalla retta; il grafico fornisce un'intuizione del procedimento.

La scelta di minimizzare i quadrati degli $\varepsilon _{i}$ non è arbitraria. Facendo ad esempio riferimento alla semplice somma degli $\varepsilon _{i}$ , distanze positive (verso l'alto) e negative (verso il basso) si compenserebbero, rendendo in generale peggiore la qualità dell'interpolazione; se per contro si adottasse una funzione criterio uguale alla somma dei valori assoluti degli $\varepsilon _{i}$ , non essendo la funzione valore assoluto derivabile su tutto l'asse reale non si potrebbe ricorrere all'elegante metodo di minimizzazione sopra illustrato.

Si osservi inoltre che gli $\varepsilon _{i}$ rappresentano una distanza di un tipo alquanto particolare. In geometria la distanza di un punto da una retta è infatti data dalla lunghezza del segmento che unisce il punto alla retta, perpendicolare a quest'ultima; evidentemente non è questo il caso degli $\varepsilon _{i}$ . La scelta operata trova giustificazione nelle proprietà statistiche delle stime, illustrate in seguito: la particolare forma degli stimatori dei minimi quadrati sopra ottenuti consente un più semplice trattamento delle loro proprietà statistiche.

Due parole infine sul significato di regressione "lineare". Il nome di questa tecnica statistica non significa che nella funzione stimata la variabile dipendente $y_{i}$ è una funzione lineare della(e) variabile(i) esplicativa(e) $x_{ji}$ , ma dei parametri oggetto di stima ( $a$ e $b$ sopra). La stima di una funzione del tipo:

y_{i}=\alpha +\beta {\sqrt {x_{1i}}}+\gamma \ln x_{2i}+\varepsilon _{i},

rientra nel raggio d'azione del modello lineare, dal momento che $y_{i}$ è una funzione lineare dei parametri $\alpha$ , $\beta$ , $\gamma$ . Per ulteriori considerazioni al riguardo, si veda l'articolo Regressione nonlineare.

Remove ads

Regressione lineare multipla

Riepilogo

Prospettiva

Il metodo sopra illustrato può essere esteso al caso in cui più variabili contribuiscono a spiegare la variabile dipendente $Y$ :^[1]

Y_{i}=\beta _{0}+\beta _{1}X_{1i}+\beta _{2}X_{2i}+\cdots +\beta _{k}X_{ki}+\varepsilon _{i},

dove:

$i$ varia tra le osservazioni, $i=1,\ldots ,n$ ;
$Y_{i}$ è il valore $i$ -esimo della variabile dipendente;
$X_{1i},X_{2i}+\cdots +X_{ki}$ sono le $i$ -esime osservazioni di ciascuno dei $k$ regressori;
$\beta _{0}+\beta _{1}x_{1i}+\beta _{2}x_{2i}\cdots +\beta _{k}x_{ki}$ è l'iperpiano di regressione;
$\beta _{0}$ è il valore atteso di $Y$ quando tutte le $X$ sono uguali a zero (cioè è l'intercetta);
$\beta _{1}$ è il coefficiente angolare di $X_{1}$ , $\beta _{2}$ è il coefficiente angolare di $X_{2}$ , (tenendo costanti gli $X_{k}$ non presi in considerazione), ecc.
$\varepsilon _{i}$ è l'errore statistico.

Possiede delle peculiari assunzioni OLS.

Raggruppando le osservazioni delle variabili esplicative in una matrice $X$ di dimensioni $N\times (k+1)$ , che si ipotizza avere rango pieno e uguale a $k+1$ (il termine costante, o intercetta, corrisponde ad avere una colonna di $1$ nella $X$ ), è possibile scrivere, in notazione matriciale:

y=X\beta +\varepsilon .

Nella formulazione più elementare, si assume che $\varepsilon \sim N(0,\sigma ^{2}I)$ , ossia: $\mathbb {E} [\varepsilon _{i}]=0,\ \forall i$ $\mathbb {E} [\varepsilon _{i}^{2}]=\sigma ^{2},\ \forall i,$ (omoschedasticità), $\mathbb {E} [\varepsilon _{i}\varepsilon _{j}]=0,\ \forall j\neq i$ (assenza di correlazione nei disturbi). Si ipotizza inoltre che:

\mathbb {E} [X'\varepsilon ]=0,

ossia che non vi sia correlazione tra i regressori e i disturbi casuali — quest'ipotesi riveste un'importanza cruciale, in quanto rende possibile considerare i regressori compresi nella matrice $X$ come variabili esogene (da cui il nome con cui l'ipotesi è spesso indicata: ipotesi di esogeneità). Quest'ultima proprietà è tutt'altro che banale, in quanto soltanto laddove essa è valida è possibile garantire che il vettore di stime dei parametri del modello, ${\hat {\beta }}$ , abbia per valore atteso il vero valore dei parametri $\beta$ (godendo così della proprietà di correttezza; si veda oltre).

Sotto tali ipotesi, è possibile ottenere le stime del vettore di parametri $\beta$ tramite il metodo dei minimi quadrati risolvendo il problema di minimo:

\min _{\hat {\beta }}(y-X{\hat {\beta }})'(y-X{\hat {\beta }}).

Le condizioni del primo ordine per un minimo definiscono il sistema (detto delle equazioni normali):

-2X'y+2X'X{\hat {\beta }}=0,

da cui:

{\hat {\beta }}=(X'X)^{-1}X'y.

Per le proprietà della forma quadratica minimizzanda, si è certi che la soluzione trovata corrisponde a un minimo, non solo locale ma globale.

Interpretazione geometrica delle stime OLS

Il vettore di stime OLS ${\hat {\beta }}$ consente di ottenere i valori previsti ("teorici") per la variabile dipendente:

{\hat {y}}=X{\hat {\beta }}=X(X'X)^{-1}X'y.

Formalmente, l'espressione sopra corrisponde alla proiezione ortogonale del vettore delle osservazioni $y$ sullo spazio generato dalle colonne della matrice $X$ ; la figura a lato illustra questo risultato.

Per chiarire questo punto, sia ${\hat {y}}$ la proiezione di $y$ sullo spazio generato dalle colonne matrice $X$ :

[X]=\left\{z\in \mathbb {R} ^{N}|z=Xv,\ v\in \mathbb {R} ^{k}\right\}.

Ciò significa che esisterà un vettore di pesi $\gamma$ tale per cui è possibile ottenere ${\hat {y}}$ come ${\hat {y}}=X\gamma$ , ossia come combinazione lineare delle colonne di $X$ . A sua volta $y$ sarà uguale a ${\hat {y}}$ più una componente $u$ ortogonale allo spazio generato da $X$ :

y=X\gamma +u,\quad X'u=0.

Dunque ${\hat {y}}=X\gamma =y-u$ ; premoltiplicando per $X'$ si ha: $X'X\gamma =X'y-X'u=X'y$ ; così che:

\gamma =(X'X)^{-1}X'y,

ossia l'espressione per il vettore di stime OLS ${\hat {\beta }}$ derivata in precedenza. Questa intuizione geometrica è formalizzata nel teorema di Frisch-Waugh-Lovell.

Proprietà algebriche degli stimatori OLS

Gli stimatori ${\hat {\beta }}$ degli OLS godono di una serie di interessanti proprietà algebriche; tali proprietà dipendono dal metodo dei minimi quadrati adottato, e non dal particolare modello oggetto di stima.

Laddove la matrice $X$ dei regressori include il termine costante (una colonna di soli $1$ , che si denota col vettore $\mathbf {1}$ ), la prima riga del sistema delle equazioni normali, scritto in forma matriciale, è data da $\mathbf {1} 'X{\hat {\beta }}=\mathbf {1} 'y$ . Dividendo ambo i membri per il numero delle osservazioni $N$ , si ha:

{\bar {X}}{\hat {\beta }}={\bar {y}},

così che l'iperpiano che interpola le

y_{i}

passa per il loro punto medio e i punti medi di tutte le colonne della

X

Da quanto sopra risulta inoltre che il punto medio delle $y_{i}$ osservate è uguale a quello dei valori previsti dal modello: ${\bar {y}}={\frac {1}{N}}\sum _{i=1}^{N}y_{i}={\frac {1}{N}}\sum _{i=1}^{N}{\hat {y}}_{i}$ ; ciò si ottiene banalmente osservando che $\mathbf {1} '{\hat {y}}=\mathbf {1} 'X{\hat {\beta }}$ .
Per definizione del vettore dei residui ${\hat {\varepsilon }}=y-{\hat {y}},$ si ha:

\mathbf {1} '{\hat {\varepsilon }}=\mathbf {1} 'y-\mathbf {1} '{\hat {y}}=0,

così che la somma dei residui è nulla.

I residui sono ortogonali ai regressori; infatti:

X'{\hat {\varepsilon }}=X'(y-{\hat {y}})=X'y-X'X{\hat {\beta }}=0,

in base al sistema delle equazioni normali. Si osservi che questa proprietà può essere immediatamente desunta dall'interpretazione geometrica delle stime OLS, considerando che il vettore dei residui collega il vettore

y

con la sua proiezione ortogonale sullo spazio generato dai regressori,

{\hat {y}}

I residui sono inoltre ortogonali al vettore delle previsioni ${\hat {y}}$ ; ciò è immediato se si osserva che il vettore delle previsioni appartiene allo spazio generato dalla matrice dei regressori $X$ ; algebricamente, inoltre: ${\hat {y}}'{\hat {\varepsilon }}=(X{\hat {\beta }})'{\hat {\varepsilon }}={\hat {\beta }}'X'{\hat {\varepsilon }}=0$ .

Si osservi che le prime tre proprietà valgono solo se la matrice dei regressori include il termine costante, ossia se include un vettore di soli $1$ .

Bontà del fitting e R²

L'R², o coefficiente di determinazione, è una misura della bontà dell'adattamento (in inglese fitting) della regressione lineare stimata ai dati osservati.

Al fine di definire l'R², sia $M_{0}=I-{\frac {1}{N}}\mathbf {1} \mathbf {1} '$ ; questa matrice trasforma i vettori in scarti dalla propria media, così che, ad esempio, $M_{0}y=y-{\bar {y}}\mathbf {1}$ . Si osservi che la matrice $M_{0}$ è simmetrica ( $M_{0}=M'_{0}$ ) e idempotente ( $M_{0}M_{0}=M_{0}$ ). Dunque la somma degli scarti al quadrato delle $y_{i}$ da ${\bar {y}}$ è semplicemente: $y'M_{0}y$ .

L'R² è definito come:

R^{2}={\frac {{\hat {\beta }}'X'M_{0}X{\hat {\beta }}}{y'M_{0}y}}={\frac {{\hat {y}}'M_{0}{\hat {y}}}{y'M_{0}y}}={\frac {\sum _{i}({\hat {y}}_{i}-{\bar {y}})^{2}}{\sum _{i}(y_{i}-{\bar {y}})^{2}}}.

Spesso le quantità al numeratore e al denominatore sono chiamate, rispettivamente, ESS ( ${\hat {y}}'M_{0}{\hat {y}}$ , dall'inglese Explained Sum of Squares) e TSS ( $y'M_{0}y$ , dall'inglese Total Sum of Squares). Osservando che, per semplice sostituzione:

y'M_{0}y={\hat {\beta }}'X'M_{0}X{\hat {\beta }}+{\hat {\varepsilon }}'M_{0}{\hat {\varepsilon }}={\hat {\beta }}'X'M_{0}X{\hat {\beta }}+{\hat {\varepsilon }}'{\hat {\varepsilon }},

dove l'ultima uguaglianza segue dal fatto che la media dei residui è zero, si ha:

R^{2}=1-{\frac {{\hat {\varepsilon }}'{\hat {\varepsilon }}}{y'M_{0}y}},

così che l'R² sarà un numero compreso tra $0$ e $1$ (alcuni pacchetti statistici trasformano tale numero in una percentuale); in analogia con quanto sopra, spesso la quantità ${\hat {\varepsilon }}'{\hat {\varepsilon }}$ è indicata con la sigla RSS (dall'inglese Residual Sum of Squares), o SSR (Sum of Squared Residuals, grammaticalmente più preciso, ma forse meno usato).

Euristicamente, l'R² misura la frazione della variabilità delle osservazioni $y_{i}$ che siamo in grado di spiegare tramite il modello lineare. Due importanti caveat devono in ogni caso essere tenuti a mente:

L'R² non misura se effettivamente sussista una relazione (di qualsiasi tipo) tra le $y_{i}$ e i regressori, ma soltanto fino a che punto un modello lineare consente di approssimare la realtà dei dati osservati; un modello non lineare, ad esempio, potrebbe meglio rappresentare la relazione tra variabile dipendente e regressori, e presentare un buon potere esplicativo, anche in presenza di un R² prossimo allo zero.
I due grafici illustrano questo problema; in entrambi i casi, la stima di un modello lineare tipo $y=a+bx$ porterebbe a un R² molto basso, o addirittura nullo; nel caso del grafico a sinistra, tuttavia, sarebbe arduo escludere che sussista una qualche relazione (probabilmente di tipo quadratico) tra $y$ e il regressore $x$ .
È possibile dimostrare che aggiungere regressori al modello non può che incrementare il valore assunto dall'R²; ciò non significa che il modello sia migliore, nel senso che meglio catturi i fattori che concorrono a spiegare la variabile dipendente, ma soltanto che il fitting è stato reso artificialmente migliore. Al fine di correggere la misura di bontà del fitting indicata, in maniera da penalizzare un modello caratterizzato da un gran numero di regressori, certi pacchetti statistici riportano un R² corretto, definito come:

{\bar {R}}^{2}=R^{2}-{\frac {k}{N-k-1}}(1-R^{2}).

È evidente che, al crescere del numero di regressori $k$ , ${\bar {R}}^{2}$ in generale decresce, correggendo l'artificiale incremento dell'R². Si può inoltre dimostrare che ${\bar {R}}^{2}$ aumenta, aggiungendo un regressore, soltanto se il valore della statistica $t$ associata al coefficiente di tale regressore (si veda oltre) è maggiore di $1$ , così che il valore dell'R² corretto è legato alla significatività delle variabili aggiuntive.

È opportuno far emergere alcune credenze sbagliate riguardo l'R². Innanzitutto non può mai assumere valori negativi perché è il rapporto di due varianze; tuttavia i software statistici possono produrre un output di una regressione che presenta un R² negativo. Ciò è dovuto al fatto che in questi programmi l'R² si calcola come differenza tra varianza spiegata e quella dei residui. Tuttavia nel caso di mancata specificazione del modello (si "dimenticano" variabili che il data generating process contiene, intercetta compresa), il valore atteso della stima dei residui è in genere diverso da zero, quindi la media dello stimatore di $Y$ è diverso dalla media di $Y$ . Pertanto il calcolo del software risulta errato perché non tiene conto di ciò.

Proprietà statistiche degli stimatori OLS^[2]

Sotto le ipotesi sopra formulate, il valore atteso dello stimatore ${\hat {\beta }}$ è uguale al vettore di parametri $\beta$ ; tale proprietà è detta correttezza; al fine di verificare la correttezza di ${\hat {\beta }}$ , è sufficiente osservare che:

\mathbb {E} \left[{\hat {\beta }}\right]=\mathbb {E} \left[(X'X)^{-1}X'(X\beta +\varepsilon )\right]=\beta +\mathbb {E} \left[(X'X)^{-1}X'\varepsilon \right]=\beta .

La varianza (in effetti, matrice varianza-covarianza) di ${\hat {\beta }}$ si ottiene come:

\sigma ^{2}\left({\hat {\beta }}\right)=\mathbb {E} ({\hat {\beta }}-\beta )({\hat {\beta }}-\beta )'=(X'X)^{-1}X'\mathbb {E} [\varepsilon \varepsilon ']X(X'X)^{-1}=\sigma ^{2}(X'X)^{-1}.

Il teorema di Gauss-Markov stabilisce che tale varianza è minima tra quelle degli stimatori di $\beta$ ottenibili come combinazione lineare delle osservazioni $y$ ; in questo senso ${\hat {\beta }}$ è uno stimatore efficiente (in effetti si tratta di uno stimatore BLUE, dall'inglese Best Linear Unbiased Estimator, il migliore stimatore corretto lineare).

Poiché ${\hat {\beta }}=\beta +(X'X)^{-1}X'\varepsilon$ e le combinazioni lineari di variabili casuali normali indipendenti sono ancora normali, se ne conclude che:

{\hat {\beta }}\sim N(\beta ,\sigma ^{2}(X'X)^{-1}).

Stimatore per il parametro varianza

Volendo stimare il parametro $\sigma ^{2}$ , un naturale candidato sarebbe la varianza campionaria:

{\hat {s}}^{2}={\frac {{\hat {\varepsilon }}'{\hat {\varepsilon }}}{N}}.

In effetti lo stimatore sopra sarebbe anche lo stimatore di massima verosimiglianza per $\sigma ^{2}$ . Semplici manipolazioni mostrano tuttavia che tale stimatore non gode della proprietà di correttezza; infatti:

\mathbb {E} \left[{\hat {s}}^{2}\right]=\mathbb {E} \left[{\frac {{\hat {\varepsilon }}'{\hat {\varepsilon }}}{N}}\right]={\frac {1}{N}}\mathbb {E} (y-X{\hat {\beta }})'(y-X{\hat {\beta }})=

={\frac {1}{N}}\mathbb {E} (X\beta +\varepsilon -X\beta -X(X'X)^{-1}X'\varepsilon )'(X\beta +\varepsilon -X\beta -X(X'X)^{-1}X'\varepsilon )={\frac {1}{N}}\mathbb {E} \left[\varepsilon 'M_{X}\varepsilon \right]

dove $M_{X}=I-X(X'X)^{-1}X'$ . Il valore atteso dell'espressione sopra è:

{\frac {1}{N}}\mathbb {E} \left[\varepsilon 'M_{X}\varepsilon \right]={\frac {1}{N}}\mathbb {E} \left[{\textrm {tr}}(\varepsilon 'M_{X}\varepsilon )\right]={\frac {1}{N}}\mathbb {E} \left[{\textrm {tr}}(M_{X}){\textrm {tr}}(\varepsilon '\varepsilon )\right]={\frac {N-k}{N}}\sigma ^{2},

dove ${\textrm {tr}}(\cdot )$ denota l'operatore traccia di una matrice. Lo stimatore corretto per il parametro $\sigma ^{2}$ è dunque:

{\hat {\sigma }}^{2}={\frac {{\hat {\varepsilon }}'{\hat {\varepsilon }}}{N-k}}.

Infatti:

\mathbb {E} \left[{\hat {\sigma }}^{2}\right]={\frac {N}{N-k}}\mathbb {E} [{\hat {s}}^{2}]=\sigma ^{2}.

Si osservi inoltre che, poiché $\varepsilon \sim N(0,\sigma ^{2}I)$ , ${\frac {{\hat {\varepsilon }}'{\hat {\varepsilon }}}{\sigma ^{2}}}={\frac {\varepsilon 'M_{X}\varepsilon }{\sigma ^{2}}}$ ha una distribuzione chi quadro con $N-k$ gradi di libertà.

Test di ipotesi nel modello lineare

Le tecniche del modello lineare sopra esposte possono trovare diverse applicazioni; con una qualche semplificazione, due sono i principali usi della regressione lineare:

calibrazione di un modello, nota nel contesto dell'analisi numerica come interpolazione, ossia determinare i valori dei parametri di un modello noto sulla base dei dati osservati;
test di ipotesi concernenti i parametri di un modello.

Confinando la nostra attenzione al secondo punto, nell'ambito della statistica classica (cioè non bayesiana) condurre un test statistico non può portare ad accettare un'ipotesi nulla, ma al più a non rifiutarla, un po' come dire che lo statistico assolve per mancanza di prove.

Un primo ordine di test concerne i singoli coefficienti del modello; volere stabilire se la j-esima variabile delle $X$ abbia o meno potere esplicativo nei confronti della $y$ equivale a sottoporre a verifica l'ipotesi nulla che il corrispondente coefficiente ${\hat {\beta }}_{j}$ sia nullo. A tal fine si ricorre alla statistica test:

{\hat {t}}_{j}={\frac {{\hat {\beta }}_{j}}{\sqrt {\Sigma _{jj}}}},

dove $\Sigma =\sigma ^{2}(X'X)^{-1}$ , che sotto l'ipotesi nulla ${\textrm {H}}_{0}:\beta _{j}=0$ ha distribuzione t di Student.

Un caso più complesso, e di maggiore interesse, riguarda il test di un insieme di restrizioni lineari sui coefficienti del modello; si consideri al riguardo un'ipotesi nulla nella forma:

{\textrm {H}}_{0}:R\beta =r,

dove $R$ è una matrice di rango $\varrho$ . Ad esempio, volendo testare l'ipotesi che il primo e il terzo coefficiente siano uguali, sarà sufficiente ricorrere la matrice (in questo particolare caso, vettore) $R=[1,0,-1,0,\cdots ,0]$ , con $r=0$ , così che l'ipotesi nulla risulti: ${\textrm {H}}_{0}:\beta _{1}-\beta _{3}=0$ .

Al fine di sottoporre a verifica ipotesi di questo tipo, è sufficiente considerare che, essendo la combinazione lineare di variabili casuali normali ancora normale:

R{\hat {\beta }}-r\sim N(0,\sigma ^{2}R(X'X)^{-1}R'),

sotto l'ipotesi nulla ${\textrm {H}}_{0}:R\beta =r$ . Ne consegue che:

{\frac {(R{\hat {\beta }}-r)'[R(X'X)^{-1}R']^{-1}(R{\hat {\beta }}-r)}{\sigma ^{2}}}\sim \chi _{\varrho }^{2},

per la nota proprietà per cui la combinazione lineare dei quadrati variabili casuali normali standardizzate ha distribuzione chi quadro, con gradi di libertà pari al rango della matrice $R(X'X)^{-1}R'$ , $\varrho$ (si osservi che in generale $\varrho \leq k$ , e che $\varrho$ sarà solitamente pari al numero di restrizioni imposte sui parametri del modello). Naturalmente in generale il parametro $\sigma ^{2}$ è incognito, per cui l'espressione sopra non può essere usata direttamente per fare inferenza statistica. Si ricorda tuttavia che:

{\frac {{\hat {\varepsilon }}'{\hat {\varepsilon }}}{\sigma ^{2}}}\sim \chi _{N-k}^{2}.

Essendo noto che il rapporto tra due variabili casuali aventi distribuzione chi quadro, divise per i rispettivi gradi di libertà, è distribuito come una F di Fisher, è possibile utilizzare la statistica test:

{\hat {F}}={\frac {(R{\hat {\beta }}-r)'[R(X'X)^{-1}R']^{-1}(R{\hat {\beta }}-r)}{{\hat {\varepsilon }}'{\hat {\varepsilon }}}}{\frac {N-k}{\varrho }}\sim F(\varrho ,N-k),

avente sotto l'ipotesi nulla distribuzione F di Fisher con $\varrho$ e $N-k$ gradi di libertà.

Multicollinearità

Se due o più colonne della matrice dei regressori $X$ sono linearmente dipendenti, non esiste l'inversa $(X'X)^{-1}$ per cui il vettore di stime OLS non può essere determinato. Se da un lato è assai improbabile che questa eventualità si verifichi nelle applicazioni pratiche, è comunque possibile che alcune colonne della matrice $X$ siano prossime alla dipendenza lineare; in tal caso sarà ancora possibile ottenere un vettore di stime OLS, ma sorgerà il problema della multicollinearità.

Si parla di multicollinearità allorché una o più colonne della matrice dei regressori $X$ sono prossime a essere linearmente dipendenti. L'effetto della multicollinearità è che la matrice $X'X$ è prossima all'essere singolare. Questo ha due conseguenze di particolare rilievo nelle applicazioni:

la significatività statistica dei singoli coefficienti risulta modesta;
il fitting della regressione risulta elevato (si osservano elevati valori dell'indice R²).

Il primo punto implica che gli intervalli di confidenza per i valori dei coefficienti saranno relativamente ampi; se tali intervalli includono lo zero, non si può rifiutare l'ipotesi nulla che la variabile corrispondente non abbia alcun effetto sulla variabile dipendente.

Un indicatore di multicollinearità spesso utilizzato nella pratica è il variance inflation factor (fattore di inflazione della varianza), o VIF. Il VIF è calcolato per ciascuna variabile del modello (spesso automaticamente da diversi software statistici), in base all'espressione:

{\textrm {VIF}}_{i}={\frac {1}{1-R_{i}^{2}}},

dove $R_{i}^{2}$ è il coefficiente R² di una regressione della colonna $i$ -esima di $X$ su tutti gli altri regressori (incluso il termine costante, se è presente). È possibile dimostrare che la varianza dell'elemento $i$ -esimo del vettore delle stime OLS ${\hat {\beta }}$ è proporzionale al VIF; dunque un VIF elevato comporterà una minore significatività del coefficiente ${\hat {\beta }}_{i}$ , andando a ridurre il valore della statistica $t$ di Student associata. Un $R_{i}^{2}$ elevato è indice di dipendenza lineare tra la colonna $i$ -esima e le restanti colonne della matrice $X$ , ossia è un indice di multicollinearità. Non esiste, tuttavia, un particolare valore soglia del VIF che determina inequivocabilmente la multicollinearità; sta alla sensibilità del ricercatore valutare, con l'ausilio dell'indicazione del VIF, se sussista o meno multicollinearità, nel qual caso è opportuno rimuovere il regressore $i$ -esimo (colonna $i$ -esima della matrice $X$ sulla quale si è riscontrata multicollinearità).

Presentazione dei risultati di stima

Le stime e le statistiche test presentate sopra costituiscono l'obiettivo del ricercatore che effettua un'analisi di regressione lineare. Sebbene le convenzioni nella presentazione dei risultati varino significativamente a seconda dell'ambito scientifico o del tipo di pubblicazione, alcuni standard sono in generale rispettati. I risultati della stima di un modello di regressione lineare potrebbero e dovrebbero riportare:

il numero delle osservazioni;
i valori delle stime dei parametri ( ${\hat {\beta }}$ nella notazione sopra adottata);
i valori delle statistiche test $t$ di Student associati a ciascun parametro, onde valutarne la significatività; tali statistiche sono spesso accompagnate dall'indicazione dell'errore standard associato ( $\Sigma _{jj}^{\frac {1}{2}}$ nella notazione sopra), nonché del p-value, pari a $1-\Pr(|{\hat {t}}_{j}|)$ nella notazione sopra, dove $\Pr(\cdot )$ è la funzione di ripartizione della t di Student, che presenta un'indicazione immediata della significatività (e risparmia a chi legge la pena di effettuare un controllo sulle tavole della t di Student); pur variando in funzione del settore scientifico, p-value considerati indice di significatività statistica sono quelli inferiori a 0,10, 0,05, 0,01;
statistiche atte a valutare la bontà complessiva del modello; queste possono essere a seconda dei casi limitate a misura di bontà del fitting quali R² e R² corretto per i gradi di libertà (vedere sopra), ma anche statistiche test quali il test F, ossia la statistica F di Fisher associata all'ipotesi nulla che tutti gli elementi di $\beta$ , salvo l'intercetta, siano al contempo nulli (quest'ultima statistica test è uguale al quadrato della statistica $t$ associata al parametro pendenza nel caso univariato);
eventuali controparti asintotiche delle statistiche test testé menzionate (nel caso, ad esempio, in cui si abbia motivo di ritenere violata l'ipotesi di normalità dei disturbi);
ulteriori test statistici concernenti le ipotesi del modello classico di regressione lineare, quali test per l'assenza di autocorrelazione nei residui e/o di eteroschedasticità. In quest'ultimo caso, può essere utile presentare anche delle statistiche t robuste rispetto a tali problemi, e con esse i relativi errori standard e p-value.

Regressione e causalità

Particolare attenzione si deve porre nel ritenere che un modello

y=X\beta +\varepsilon

implichi che le variabili ricomprese nella matrice $X$ "causino" la $y$ . È importante osservare che l'esistenza di regressione (formalmente definita nei paragrafi precedenti) non implica altro che l'esistenza di un valore atteso condizionato:

\mathbb {E} [y|X]=X\beta .

In particolare, non si può in generale affermare che l'espressione sopra significhi che le variabili in $X$ causino il comportamento della $y$ . Come espresso con efficacia da Cochrane (2003), "le regressioni non hanno cause al secondo membro e conseguenze al primo membro." Tuttavia resta vero che uno dei principali task dell'analisi di regressione verte proprio sulle indagini di tipo causale; peraltro in contesti sperimentali "controllati" questa possibilità è tipicamente accettata. Inoltre anche in contesti osservazionali l'interpretazione causale, anche se molto più delicata, non si esclude assolutamente, anzi in certi contesti resta il task più importante. Particolare rilievo in questo contesto è giocato dal problema delle "variabili omesse", se siamo portati a ritenere che tale problema non sia rilevante, allora l'interpretazione causale è lecita^[3].

Remove ads

Validità

Riepilogo

Prospettiva

I concetti di validità esterna ed interna forniscono uno schema di riferimento per valutare se uno studio statistico o econometrico sia utile per rispondere ad una domanda specifica di interesse.

Esterna

L'analisi è esternamente valida se le sue inferenze e conclusioni possono essere generalizzate dalla popolazione e dal contesto studiati ad altre popolazioni e contesti. Deve essere giudicata usando la conoscenza specifica della popolazione e del contesto usato e di quelli oggetto d'interesse.^[1]

Un'ipotesi cruciale del modello classico di regressione lineare è che i regressori siano ortogonali al disturbo stocastico, ossia, formalmente:

\mathbb {E} [X'\varepsilon ]=\mathbf {0} .

Il motivo per cui tale ipotesi — anche nota come ipotesi di esogeneità — è fondamentale è presto illustrato; basta osservare che:

{\hat {\beta }}=\beta +(X'X)^{-1}X'\varepsilon ,

così che:

\mathbb {E} [{\hat {\beta }}]=\beta \ \iff \ (X'X)^{-1}\mathbb {E} [X'\varepsilon ]=0\ \iff \ \mathbb {E} [X'\varepsilon ]=0.

In altri termini: l'ipotesi di esogeneità dei regressori è condizione necessaria per la correttezza dello stimatore ${\hat {\beta }}$ del metodo dei minimi quadrati (un'analoga argomentazione può essere data in termini asintotici, passando dalla correttezza alla consistenza dello stimatore).

In tutti i casi in cui si ha motivo di credere che l'ipotesi di esogeneità sia violata — tutti i casi in cui si sospetta endogeneità dei regressori — non si può fare affidamento sui risultati di una regressione condotta col metodo dei minimi quadrati ordinari (la soluzione è di ricorrere a una regressione con variabili strumentali).

Differenze di popolazioni

È la differenza tra la popolazione studiata e la popolazione d'interesse. Un esempio è quello di effettuare lo stesso test sui topi e sugli uomini senza chiedersi se vi siano delle differenze che inficino l'analisi.

Differenze di contesto

Anche se la popolazione studiata e quella d'interesse fossero uguali, sarebbe opportuno valutarne il contesto. Un esempio è uno studio su una campagna di alcolici su degli studenti universitari e su degli studenti delle classi primarie.

Interna

Un'analisi statistica è internamente valida se le inferenze statistiche sugli effetti causali sono validi per la popolazione oggetto di studio.^[1]

Distorsione da variabile omessa

La distorsione da variabile omessa nasce quando viene omessa una variabile dalla regressione, che è una determinante di $Y$ ed è correlata con uno o più dei regressori.

L'omissione di variabili rilevanti (nel senso precisato in quanto segue) può rendere le stime OLS inconsistenti. Si supponga che il modello "vero" sia:

y_{i}=\beta _{1}x_{i1}+\beta _{2}x_{i2}+\varepsilon _{i},\quad \sigma (x_{i1},x_{i2})\neq 0

ma si stimi un modello:

y_{i}=\beta _{1}x_{i1}+{\tilde {\varepsilon }}_{i}

che omette la variabile rilevante $x_{i2}$ che contribuisce a spiegare la variabile dipendente $y$ . Si ha allora:

{\tilde {\varepsilon }}_{i}=y_{i}-\beta _{1}x_{i1}=\beta _{2}x_{i2}+\varepsilon _{i}.

Poiché $\sigma (x_{i1},x_{i2})\neq 0$ , nel secondo modello il regressore $x_{i1}$ è correlato col disturbo ${\tilde {\varepsilon }}_{i}$ . Per la precisione:

\sigma (x_{i1},{\tilde {\varepsilon }}_{i})=\beta _{2}\sigma (x_{i1},x_{i2})\neq 0.

Risulta così violata una delle ipotesi del modello classico di regressione lineare, e le stime del parametro $\beta _{1}$ col metodo dei minimi quadrati ordinari sono inconsistenti.

Si osservi che, qualora la variabile rilevante $x_{i2}$ sia ortogonale a $x_{i1}$ (e, di conseguenza, $\sigma (x_{i1},x_{i2})=0$ ), il problema scompare (il teorema di Frisch-Waugh-Lovell precisa ed estende quest'ultima considerazione).

Soluzione: se l'errore è osservabile bisogna includere la variabile omessa nella regressione multipla. Se non è osservabile è possibile:

1. Usare dati in cui la stessa unità è osservata in momenti diversi;

2. Usare la regressione a variabili strumentali;

3. Effettuare un esperimento randomizzato controllato.

Forma scorretta della regressione

Questo errore sorge quando la funzione di regressione che descrive i dati non è corretta. Ad esempio una funzione di regressione di una popolazione non lineare è descritta come lineare.

Soluzione: cambiare la forma della funzione.

Errori nelle variabili

Tipicamente è un errore di misura o confusione, che va a distorcere l'intero data set.

Soluzione:

1. Ottenere una misura più accurata di

X

;

2. Usare la regressione a variabili strumentali.

Causalità simultanea

La distorsione di causalità simultanea si verifica in una regressione di $Y$ su $X$ quando, in aggiunta al legame causale d'interesse da $X$ a $Y$ , c'è un legame causale da $Y$ a $X$ . Questa causalità inversa rende $X$ correlato con l'errore statistico nella regressione d'interesse.

Soluzione:

1. Effettuare un esperimento causalizzato controllato dove il canale di causalità inversa sia controllato;

2. Usare la regressione a variabili strumentali.

Selezione campionaria

Si verifica quando il processo di selezione è legato al valore della variabile dipendente; ciò può introdurre la correlazione tra l'errore statistico ed il regressore, portando così ad una distorsione dello stimatore OLS.

Regressori stimati (o generati)

Si supponga di non poter osservare direttamente un regressore, che deve essere stimato (o generato, secondo una diversa terminologia); per concretezza, si consideri un "vero" modello:

y_{i}=\beta x_{i}+\varepsilon _{i},\quad \sigma (x_{i},\varepsilon _{i})=0

e si ipotizzi di disporre soltanto di una stima di $x_{i}$ :

{\hat {x}}_{i}=x_{i}+u_{i},\quad \sigma (x_{i},u_{i})=0.

Se si procede nella stima di:

y_{i}=\beta {\hat {x}}_{i}+\varepsilon _{i}

Si ottiene:

{\begin{aligned}{\hat {\beta }}_{\mathrm {OLS} }&={\frac {\sigma ({\hat {x}}_{i},y_{i})}{\sigma ^{2}({\hat {x}}_{i})}}={\frac {\sigma (x_{i},y_{i})+\sigma (u_{i},\varepsilon _{i})}{\sigma ^{2}(x_{i})+\sigma ^{2}(u_{i})}}=\\&={\frac {\sigma (y_{i},x_{i})}{\sigma ^{2}(x_{i})}}{\frac {\sigma ^{2}(x_{i})}{\sigma ^{2}(x_{i})+\sigma ^{2}(u_{i})}}+{\frac {\sigma (u_{i},\varepsilon _{i})}{\sigma ^{2}(x_{i})+\sigma ^{2}(u_{i})}}=\\&=\beta \times A+{\frac {\sigma (u_{i},\varepsilon _{i})}{\sigma ^{2}(x_{i})+\sigma ^{2}(u_{i})}},\end{aligned}}

con

A={\frac {\sigma ^{2}(x_{i})}{\sigma ^{2}(x_{i})+\sigma ^{2}(u_{i})}}\leq 1.

Supponendo che $\sigma (u_{i},\varepsilon _{i})=0$ , la stima del parametro $\beta$ risulta più vicina a zero di quanto non sia il "vero" valore del parametro (questo effetto è noto con termine inglese come attenuation bias). È immediato osservare che il problema è meno pronunciato laddove la varianza dell'errore nell'osservazione di $x_{i}$ , $u_{i}$ risulta minore della varianza di $x_{i}$ stesso — ossia, non sorprendentemente, quando $x_{i}$ può essere stimato con relativa precisione.

Si osservi infine che nessun problema si pone nel caso in cui la variabile dipendente $y$ sia stimata o generata. In tal caso, il termine di errore in essa contenuto sarà semplicemente incorporato nel disturbo della regressione $\varepsilon$ , senza ledere la consistenza delle stime OLS.

Remove ads

Proprietà asintotiche del modello classico di regressione lineare

Riepilogo

Prospettiva

Le proprietà sopra esposte possono essere generalizzate al caso in cui le ipotesi sulla distribuzione dei termini di errore non siano necessariamente valide per campioni di dimensione finita. In questo caso, si ricorre alle proprietà asintotiche delle stime, supponendo implicitamente che, per campioni di dimensione sufficientemente grande, la distribuzione asintotica delle stime coincida, o approssimi ragionevolmente, quella effettiva. I risultati si fondano sul teorema del limite centrale, o su sue generalizzazioni.

Al fine di illustrare le proprietà asintotiche degli stimatori dei minimi quadrati ordinari, si ipotizzi:

$\mathrm {plim} \ {\frac {\varepsilon '\mathbf {1} }{N}}=0,$
$\mathrm {plim} \ {\frac {\varepsilon '\varepsilon }{N}}=\sigma ^{2}I,$
$\mathrm {plim} \ {\frac {X'X}{N}}=Q<\infty ,$

dove $\mathrm {plim}$ denota la convergenza in probabilità e $I$ la matrice identità.

L'espressione per lo stimatore dei minimi quadrati ordinari può essere riscritta come:

{\hat {\beta }}=\beta +\left(X'X\right)^{-1}X'\varepsilon =\beta +\left({\frac {X'X}{N}}\right)^{-1}{\frac {X'\varepsilon }{N}}.

Passando al limite per $N\rightarrow \infty$ , si ha allora:

\mathrm {plim} \ {\hat {\beta }}=\beta +Q^{-1}\ \mathrm {plim} {\frac {X'\varepsilon }{N}}=\beta

(si osservi che il limite in probabilità dell'inversa di $X'X/N$ è l'inversa di $Q$ ). Dunque, lo stimatore ${\hat {\beta }}$ converge in probabilità al vero valore del vettore di parametri $\beta$ . Si dice dunque che ${\hat {\beta }}$ gode della proprietà di consistenza.

Applicando una banale estensione del teorema del limite centrale al caso multivariato, si ha inoltre:

{\frac {1}{\sqrt {N}}}X'\varepsilon {\stackrel {d}{\rightarrow }}\ z\sim N(\mathbf {0} ,\sigma ^{2}Q),

dove ${\stackrel {d}{\rightarrow }}$ denota la convergenza in distribuzione. Da quest'ultimo risultato discende allora che:

{\sqrt {N}}\left({\hat {\beta }}-\beta \right)=\left({\frac {X'X}{N}}\right)^{-1}{\frac {X'\varepsilon }{\sqrt {N}}}\ {\stackrel {d}{\rightarrow }}\ \xi \sim N\left(\mathbf {0} ,\sigma ^{2}Q^{-1}\right).

In altre parole, lo stimatore dei minimi quadrati ordinari è non solo consistente, ma anche asintoticamente normalmente distribuito; l'insieme di queste proprietà si indica con la sigla inglese CAN (Consistent and Asymptotically Normal).

Remove ads

Estensioni del modello lineare classico

I metodi sopra esposti costituiscono il nucleo del modello classico di regressione lineare; quantunque validi strumenti di analisi per un ampio spettro di discipline e casi di studio, essi prestano il fianco a una serie di critiche, incentrate sulla semplicità delle ipotesi alla base del modello.

Tali critiche hanno portato alla formulazione di modelli più generali, caratterizzati da ipotesi meno restrittive rispetto a quelle poste sopra. L'analisi ha battuto alcune vie principali:

rimozione delle ipotesi di assenza di correlazione e omoschedasticità;
ipotesi alternative circa la distribuzione di probabilità dei disturbi;
analisi delle proprietà asintotiche del modello classico di regressione lineare, ad esempio tramite il delta method.

Ciò ha consentito lo sviluppo di modelli alternativi, o quantomeno complementari, al modello classico; tra i più noti, il metodo dei minimi quadrati generalizzati, metodi di stima tramite variabili strumentali, i vari modelli di regressione robusta, nonché numerosi modelli sviluppati nell'ambito dell'analisi delle serie storiche e dei dati panel.

Remove ads

Esempio in R

Riepilogo

Prospettiva

Approccio frequentista

Utilizzando il linguaggio di programmazione R ed il software RStudio si vogliono predire i consumi di uno Stato conoscendo il suo PIL utilizzando la regressione lineare. Tramite la funzione lm di RStudio si calcola il modello e il coefficiente di determinazione $R^{2}$ per valutare se la retta di regressione tracciata in figura predice bene il valore della variabile dipendente.

 model <- lm(Consumi_2023 ~ PIL_2023, data = df)
 sommario<-summary(model)
 print(paste("R^2=",sommario$r.squared))

Call:
lm(formula = Consumi_2023 ~ PIL_2023, data = df)
Coefficients:
(Intercept)     PIL_2023
  -32.7468       0.7272
[1] "R^2= 0.993445633885135"

Quindi la funzione dei consumi sarà $C=-32.7468+0.7272Y$ che come retta di regressione predice in maniera ottima i consumi essendo $R^{2}=99,34\%$ .

Volendo predire i consumi con un PIL di 6000 miliardi si utilizza la funzione predict.lm :

 newdata <- data.frame(PIL_2023=6000)
 predict.lm(model,newdata, interval = "confidence")
 predict.lm(model,newdata, interval = "prediction" )

       fit      lwr      upr
1 4330.532 4219.952 4441.113
       fit      lwr      upr
1 4330.532 2793.009 5868.056

Quindi con un PIL di 6000 miliardi, i consumi saranno 4330 miliardi con un intervallo di confidenza al 95% pari a [4219,4441] e un intervallo di previsione pari a [2793,5868].

Approccio bayesiano

Per utilizzare la regressione bayesiana si utilizza il package BAS e la funzione bas.lm tramite cui viene fatta la media di più modelli ottenendo posteriori dei coefficienti e previsioni da nuovi dati. Dal sommario si vede che il modello con una probabilità a posteriori PostProbs del 100% è il modello 1 che possiede un'intercetta e la variabile PIL_2023, anch'esse con una probabilità a posteriori del 100%.

 library(BAS)

 # Modello di regressione bayesiana con BAS
 fit <- bas.lm(Consumi_2023 ~ PIL_2023, data = df, prior = "ZS-null", modelprior = uniform())

 # Sommario del modello
 summary(fit)

          P(B != 0 | Y)  model 1       model 2
Intercept             1   1.0000  1.000000e+00
PIL_2023              1   1.0000  0.000000e+00
BF                   NA   1.0000 8.756142e-209
PostProbs            NA   1.0000  0.000000e+00
R2                   NA   0.9934  0.000000e+00
dim                  NA   2.0000  1.000000e+00
logmarg              NA 479.0705  0.000000e+00

Volendo predire i consumi con un PIL di 6000 miliardi si utilizza la funzione predict :

# Previsione dei consumi per PIL  = 6000
new_data <- data.frame(PIL_2023 = 6000)
prediction <- predict(fit, newdata = new_data, estimator = "BPM", se.fit = TRUE)
confint(prediction, estimator = "BPM")

         2.5%    97.5%     pred
[1,] 2788.953 5871.956 4330.455
attr(,"Probability")
[1] 0.95
attr(,"class")
[1] "confint.bas"

Quindi con un PIL di 6000 miliardi, i consumi saranno 4330 miliardi con un intervallo di credibilità al 95% pari a [2788,5871] .

Remove ads

Note

Loading content...

Bibliografia

Loading content...

Voci correlate

Loading content...

Altri progetti

Loading content...

Collegamenti esterni

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads

Origini storiche

Regressione lineare semplice

Definizione

Illustrazione del metodo

Stime dei parametri nel caso bivariato

Correlazione

Giustificazione probabilistica del metodo di regressione con i minimi quadrati

Osservazioni sul metodo di stima

Regressione lineare multipla

Interpretazione geometrica delle stime OLS

Proprietà algebriche degli stimatori OLS

Bontà del fitting e R²

Proprietà statistiche degli stimatori OLS[2]

Stimatore per il parametro varianza

Test di ipotesi nel modello lineare

Multicollinearità

Presentazione dei risultati di stima

Regressione e causalità

Validità

Esterna

Differenze di popolazioni

Differenze di contesto

Interna

Distorsione da variabile omessa

Forma scorretta della regressione

Errori nelle variabili

Causalità simultanea

Selezione campionaria

Regressori stimati (o generati)

Proprietà asintotiche del modello classico di regressione lineare

Estensioni del modello lineare classico

Esempio in R

Approccio frequentista

Approccio bayesiano

Note

Bibliografia

Voci correlate

Altri progetti

Collegamenti esterni

Proprietà statistiche degli stimatori OLS^[2]