Metodo della massima verosimiglianza

Filosofia del metodo

Data una distribuzione di probabilità $\ D$ , con funzione di massa (o densità, se continua) di probabilità $\ {\mathcal {L}}_{D}$ , caratterizzata da un parametro $\ \vartheta$ , dato un campione di dati osservati $\ \left\{x_{i}\right\}_{i=1}^{n}$ di dimensione $\ n$ si può calcolare la probabilità associata ai dati osservati:

\ P(\left\{x_{i}\right\}_{i=1}^{n}\ |\vartheta )={\mathcal {L}}_{D}(\vartheta |\left\{x_{i}\right\}_{i=1}^{n})

D'altra parte, può darsi che il parametro $\ \vartheta$ sia ignoto, sebbene sia noto che il campione è estratto dalla distribuzione $\ D$ . Un'idea per stimare $\ \vartheta$ è allora utilizzare i dati a nostra disposizione: $\ \left\{x_{i}\right\}_{i=1}^{n}$ per ottenere informazioni su $\ \vartheta$ .

Il metodo della massima verosimiglianza ricerca il valore più verosimile di $\ \vartheta$ , ossia ricerca, all'interno dello spazio $\ \Theta$ di tutti i possibili valori di $\ \vartheta$ , il valore del parametro che massimizza la probabilità di aver ottenuto il campione dato. Da un punto di vista matematico, ${\mathcal {L}}_{D}(\vartheta |\left\{x_{i}\right\}_{i=1}^{n})$ o equivalentemente $\ {\mathcal {L}}_{D}(\vartheta |x_{1},\ldots ,x_{n})$ è detta funzione di verosimiglianza, e lo stimatore di massima verosimiglianza è ottenuto come:

\ {\hat {\vartheta }}=\arg \max _{\vartheta \in \Theta }{\mathcal {L}}_{D}\left(\vartheta |x_{1},\ldots ,x_{n}\right)

Esempi

Al fine di illustrare il metodo della massima verosimiglianza, si consideri un campione $\ \{x_{i}\}_{i=1}^{n}$ di variabili casuali identicamente e indipendentemente distribuite, con distribuzione normale: $\ x_{i}\sim N(\mu ,\sigma ^{2})\ \forall i$ . La funzione di verosimiglianza associata è:

\ {\mathcal {L}}\left(\mu ,\sigma ^{2}|\{x_{i}\}_{i}\right)=\prod _{i=1}^{n}{\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left\{-{\frac {1}{2}}\left({\frac {x_{i}-\mu }{\sigma }}\right)^{2}\right\}

La massimizzazione della funzione di verosimiglianza è equivalente a massimizzarne il logaritmo:

\ L\left(\mu ,\sigma ^{2}|\{x_{i}\}_{i}\right)=\ln {\mathcal {L}}\left(\mu ,\sigma ^{2}|\{x_{i}\}_{i}\right)=-{\frac {n}{2}}\ln(2\pi \sigma ^{2})-{\frac {1}{2}}\sum _{i=1}^{n}\left({\frac {x_{i}-\mu }{\sigma }}\right)^{2}

I parametri $\ \mu$ e $\ \sigma ^{2}$ sono determinati risolvendo il problema di massimo:

\ \{\mu ,\sigma ^{2}\}=\arg \max _{\mu ,\sigma ^{2}}L\left(\mu ,\sigma ^{2}|\{x_{i}\}_{i}\right)

Le condizioni del primo ordine per un massimo definiscono il seguente sistema di equazioni in $\ \mu$ e $\ \sigma ^{2}$ :

\ {\frac {\partial L}{\partial \mu }}={\frac {1}{{\hat {\sigma }}^{2}}}\sum _{i}(x_{i}-{\hat {\mu }})=0

\ {\frac {\partial L}{\partial \sigma ^{2}}}=-{\frac {n}{2}}{\frac {1}{{\hat {\sigma }}^{2}}}+{\frac {1}{2{\hat {\sigma }}^{4}}}\sum _{i}(x_{i}-{\hat {\mu }})^{2}=0

dove i segni di apice sopra i parametri denotano i loro stimatori. Dalla prima equazione discende immediatamente lo stimatore di massima verosimiglianza per la media:

\ {\hat {\mu }}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}

cioè la media campionaria. La varianza dello stimatore $\ {\hat {\mu }}$ è data dalla seguente espressione^[1]:

\ {\textrm {var}}({\hat {\mu }})={\textrm {var}}\left({\frac {1}{n}}\sum _{i=1}^{n}x_{i}\right)={\frac {1}{n^{2}}}\sum _{i=1}^{n}{\textrm {var}}(x_{i})={\frac {\sigma ^{2}}{n}}

Sostituendo $\ {\hat {\mu }}$ nella seconda equazione, si ha lo stimatore di massima verosimiglianza per la varianza:

\ {\hat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\hat {\mu }})^{2}

cioè la varianza campionaria.

L'esempio è particolarmente calzante, perché consente di illustrare alcune proprietà degli stimatori di massima verosimiglianza. È immediato verificare la correttezza (o unbiasedness) di $\ {\hat {\mu }}$ :

\ {\textrm {E}}[{\hat {\mu }}]={\textrm {E}}\left[{\frac {1}{n}}\sum _{i=1}^{n}x_{i}\right]={\frac {1}{n}}\sum _{i=1}^{n}{\textrm {E}}[x_{i}]=\mu

D'altra parte, $\ {\hat {\sigma }}^{2}$ non gode di tale proprietà. Ricordando che:

\ \sum _{i}(x_{i}-\mu )^{2}=\sum _{i}(x_{i}-{\hat {\mu }})^{2}+n({\hat {\mu }}-\mu )^{2}

segue che:

\ {\textrm {E}}[{\hat {\sigma }}^{2}]={\frac {1}{n}}{\textrm {E}}\left(\sum _{i=1}^{n}(x_{i}-{\hat {\mu }})^{2}\right)={\frac {1}{n}}{\textrm {E}}\left[\sum _{i}(x_{i}-\mu )^{2}-n({\hat {\mu }}-\mu )^{2}\right]={\frac {n-1}{n}}\sigma ^{2}

Dunque $\ {\hat {\sigma }}^{2}$ non è uno stimatore corretto; un tale stimatore sarebbe dato dalla statistica:

\ {\hat {s}}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\hat {\mu }})^{2}

Val la pena d'altra parte di osservare che lo stimatore di massima verosimiglianza è comunque uno stimatore asintoticamente corretto; infatti:

\ \lim _{n\rightarrow \infty }{\textrm {E}}[{\hat {\sigma }}^{2}]=\lim _{n\rightarrow \infty }{\frac {n-1}{n}}\sigma ^{2}=\sigma ^{2}

In particolare, qualunque stimatore di massima verosimiglianza è asintoticamente corretto e asintoticamente normalmente distribuito.

L'espressione per la varianza dello stimatore $\ {\hat {\sigma }}^{2}$ è al di là degli scopi di questo esempio.

È interessante osservare che gli stimatori derivati in questa sezione sono identici a quelli ottenibili, nelle stesse condizioni, impiegando il metodo dei momenti; a scanso di equivoci, si precisa che i due metodi di ricerca degli stimatori non conducono necessariamente a individuare gli stessi stimatori in condizioni più generali.

Applicazione alla Poissoniana

Al di là dei problemi evidenziati negli esempi sopra, altre difficoltà, di portata più generale, possono essere associate agli stimatori di massima verosimiglianza.

Il valore dello stimatore di massima verosimiglianza può non appartenere allo spazio dei parametri $\ \Theta$ . Si consideri il caso di un campione $\ \left\{X_{i}\right\}_{i=1}^{n}$ di v.c. identicamente e indipendentemente distribuite, con distribuzione di Poisson di parametro $\lambda >0$ . La funzione di verosimiglianza associata è:

\ {\mathcal {L}}\left(\lambda |\left\{X_{i}\right\}_{i=1}^{n}\right)={\frac {e^{-n\lambda }\lambda ^{\sum _{i}X_{i}}}{\prod _{i=1}^{n}X_{i}!}}

Così che la funzione di log-verosimiglianza risulta:

\ L\left(\lambda |\left\{X_{i}\right\}_{i=1}^{n}\right)=-n\lambda +\ln \lambda \sum _{i}X_{i}-\ln \left(\prod _{i=1}^{n}X_{i}!\right)

Lo stimatore di massima verosimiglianza sarebbe dunque $\ {\hat {\lambda }}={\frac {1}{n}}\sum _{i}X_{i}$ . Si supponga tuttavia che $\ {\bar {X}}={\frac {1}{n}}\sum _{i}X_{i}=0$ ; poiché $\ 0\notin \Theta =\mathbb {R} _{+}$ , la stima ottenuta con il metodo della massima verosimiglianza non è ammissibile.

A prima vista il problema potrebbe apparire un dettaglio matematico di scarso rilievo nella pratica; la sua portata nelle applicazioni è tuttavia più rilevante di quanto sembri. Restando nell'ambito dell'esempio testé esposto, si osservi che la variabile casuale poissoniana è spesso utilizzata come modello per il numero di arrivi a uno sportello, un ufficio, la fermata di un autobus, etc. (si tratta di un'applicazione della teoria delle code, che fa per la precisione riferimento al processo di Poisson); in tale contesto, $\lambda$ rappresenta il tasso atteso di arrivi per unità di tempo. È chiaro che ipotizzare $\lambda =0$ in qualche misura snatura il processo sotto esame: può darsi che, nell'intervallo di tempo corrispondente al campione utilizzato per la stima, nessun cliente sia arrivato allo sportello (nessun passeggero alla fermata dell'autobus, etc.); ciò non significa che ci si debba aspettare che nessun cliente (o passeggero, etc.) arrivi mai!

Lo stimatore di massima verosimiglianza, inoltre, non è necessariamente unico. Si consideri, ad esempio, il caso di un campione $\ \left\{X_{i}\right\}_{i=1}^{n}$ di variabili casuali identicamente e indipendentemente distribuite, aventi distribuzione uniforme sull'intervallo $\ [\vartheta -1/2,\vartheta +1/2]$ , con $\ \vartheta \in \mathbb {R}$ . La funzione di verosimiglianza associata è:

\ {\mathcal {L}}(\vartheta |\left\{X_{i}\right\}_{i=1}^{n})=\mathbf {1} _{\left\{X_{i}\in [\vartheta -{\frac {1}{2}},\vartheta +{\frac {1}{2}}],\ i=1,\ldots ,n\right\}}

dove $\ \mathbf {1}$ denota la funzione indicatrice. Si supponga che il campione sia ordinato in modo tale che:

\ X_{1}\leq X_{2}\leq \cdots \leq X_{n}

(tale ipotesi è lecita in quanto le $\ X_{i}$ sono indipendentemente distribuite). È facile mostrare che:

\ {\mathcal {L}}(\vartheta |\left\{X_{i}\right\}_{i=1}^{n})=\left\{{\begin{matrix}1&\iff &X_{n}-{\frac {1}{2}}\leq \vartheta \leq X_{1}+{\frac {1}{2}}\\0&&{\textrm {altrimenti}}\end{matrix}}\right.

Ne consegue che lo stimatore di massima verosimiglianza per $\ \vartheta$ è unico se e solo se $\ X_{n}-X_{1}=1$ ; diversamente, un numero infinito di valori dello stimatore $\ {\hat {\vartheta }}$ massimizza la funzione di verosimiglianza.

Metodo della massima verosimiglianza

Descrizione

Filosofia del metodo

Esempi

Applicazione alla Poissoniana

Proprietà degli stimatori di massima verosimiglianza

Invarianza funzionale

Distorsione

Efficienza e comportamento asintotico

Note

Bibliografia

Voci correlate

Altri progetti

Collegamenti esterni

Wikiwand - on