Distribuzione marginale

In teoria della probabilità e in statistica, la distribuzione marginale di un sottoinsieme di una collezione di variabili casuali è la distribuzione di probabilità delle variabili contenute nel sottoinsieme. Il termine variabile marginale è usato per riferirsi a quelle variabili nel sottoinsieme delle variabili che vengono trattenute ovvero utilizzate. Questo termine, marginale, è attribuito ai valori ottenuti ad esempio sommando in una tabella di valori lungo le righe oppure lungo le colonne, trascrivendo il risultato appunto a margine rispettivamente della riga o colonna sommata.^[1] La distribuzione delle variabili marginali (la distribuzione marginale) è ottenuta mediante marginalizzazione sopra le variabili da "scartare", e le variabili scartate sono dette fuori marginalizzate.

In pratica la situazione è quella in cui si intraprende uno studio teorico oppure un'analisi dei dati coinvolgente un più ampio numero di variabili casuali ma l'attenzione è limitata ad un numero ridotto di esse. In molte applicazioni un'analisi può iniziare con una prefissata collezione di variabili casuali, quindi per prima cosa si estende la collezione di variabili definendone di nuove (come ad esempio la somma delle variabili originali) e finalmente si riduce il numero focalizzando l'interesse sulla distribuzione marginale di un sottoinsieme (come appunto la somma). Varie differenti analisi possono essere fatte, ognuna coinvolgente un distinto sottoinsieme di variabili come variabili marginali.

Date due variabili casuali X e Y la cui distribuzione congiunta sia nota, la distribuzione marginale di X è semplicemente la distribuzione di probabilità di X mediata sopra l'informazione relativa a Y. Questa è calcolata tipicamente sommando o integrando la distribuzione di probabilità congiunta sopra Y.

Per variabili casuali discrete la funzione di massa di probabilità può essere scritta come Pr(X = x). Cioè

\Pr(X=x)=\sum _{y}\Pr(X=x,Y=y)=\sum _{y}\Pr(X=x|Y=y)\Pr(Y=y),

dove Pr(X = x,Y = y) è la distribuzione congiunta di X e Y, mentre Pr(X = x|Y = y) è la distribuzione condizionata di X dato Y. In questo caso, la variabile Y è stata marginalizzata.

Le probabilità bivariate marginali e congiunte per variabili casuali discrete sono spesso mostrate come tabelle di contingenza.

Analogamente per variabili casuali continue, la funzione di densità di probabilità marginale può essere scritta come p_X(x). Cioè

p_{X}(x)=\int _{y}p_{X,Y}(x,y)\,\operatorname {d} \!y=\int _{y}p_{X|Y}(x|y)\,p_{Y}(y)\,\operatorname {d} \!y,

dove p_X,Y(x,y) da la distribuzione congiunta di X e Y, mentre p_X|Y(x|y) fornisce la distribuzione condizionata per X dato Y. Di nuovo, la variabile Y è stata marginalizzata.

Si noti che una probabilità marginale può sempre essere scritta come un valore atteso:

p_{X}(x)=\int _{y}p_{X|Y}(x|y)\,p_{Y}(y)\,\operatorname {d} \!y=\mathbb {E} _{Y}[p_{X|Y}(x|y)]

Intuitivamente, la probabilità marginale di X è calcolata tramite l'esame della probabilità condizionata di X dato un particolare valore di Y, e quindi mediando questa probabilità condizionata sopra la distribuzione di tutti i valori di Y.

Questo segue dalla definizione di valore atteso, cioè in generale

\mathbb {E} _{Y}[f(Y)]=\int _{y}f(Y)p_{Y}(y)\,\operatorname {d} \!y

Immaginiamo per esempio di voler calcolare la probabilità che un pedone venga investito da un'automobile mentre attraversa la strada sulle strisce pedonali. Sia H una variabile casuale discreta descrivente la probabilità di essere investito da un'automobile mentre attraversiamo l'incrocio, assumente un valore dall'insieme {investito, non investito}. Sia L una variabile casuale discreta descrivente la probabilità di stato del semaforo all'incrocio assumente valori nell'insieme {rosso, giallo, verde}.

Realisticamente, H dipenderà da L. Cioè, P(H = investito) e P(H = non investito) assumeranno valori differenti a seconda che L sia rosso, giallo o verde. È molto più probabile essere investiti da un'automobile se proviamo ad attraversare mentre il semaforo è rosso rispetto a quando è verde. In altri termini, per ogni possibile coppia di valori di H ed L, dobbiamo inserire tali valori nella distribuzione di probabilità congiunta di H ed L per trovare la probabilità che ha quella coppia di eventi contemporanei.

Tuttavia, nel provare a calcolare la probabilità marginale P(H=Investito), quello che stiamo chiedendo è la probabilità che H=Investito, dove non conosciamo realmente il particolare valore di L. In generale si può essere investiti se il semaforo è rosso OPPURE se è giallo OPPURE se è verde. In tal modo in questo caso la risposta per la probabilità marginale può essere trovata sommando P(H,L) = P(Investito,L) per tutti i possibili valori su L.

La tabella seguente mostra le probabilità condizionate di essere investiti, a seconda dello stato del semaforo. (Si noti che a causa della dipendenza solo la somma dei valori lungo le colonne è pari ad 1).

Ulteriori informazioni L=Verde, L=Giallo ...

Distribuzione condizionata: P(H\|L)
	L=Verde	L=Giallo	L=Rosso
H=Non Investito	0.99	0.9	0.2
H=Investito	0.01	0.1	0.8

Chiudi

Per trovare la distribuzione di probabilità congiunta abbiamo bisogno di ulteriori dati. Diciamo che P(L=verde) = 0.7, P(L=giallo) = 0.1, P(L=rosso) = 0.2. Moltiplicando le colonne nella distribuzione condizionata per i valori appropriati, troviamo la distribuzione di probabilità congiunta di H ed L. (Si noti che la somma dei valori nelle celle in questa tabella, escludendo le probabilità marginali, ora è pari ad 1).

Ulteriori informazioni L=Verde, L=Giallo ...

Distribuzione congiunta: P(H,L)
	L=Verde	L=Giallo	L=Rosso	Probabilità marginale
H=Non Investito	0.693	0.09	0.04	0.823
H=Investito	0.007	0.01	0.16	0.177
Totale	0.7	0.1	0.2	1

Chiudi

La probabilità marginale P(H=Investito) è la somma della riga in basso (quella sopra la riga dei totali), in quanto questa è la probabilità di essere investiti quando il semaforo è rosso OPPURE giallo OPPURE verde. Analogamente, la probabilità marginale che P(H=Non Investito) è la somma della riga in alto. È importante interpretare questi risultati correttamente. La possibilità di essere investiti da un'automobile quando si attraversa la strada è ovviamente molto meno del 17.7%. Tuttavia, quello che questo numero dice è che se uno ignora lo stato del semaforo ed attraversa comunque la strada, allora ha una probabilità del 17.7% di essere investito. Questo sembra più verosimile.

Per distribuzioni multivariate, sono applicabili formule simili a quelle sopra descritte dove però X e/o Y son interpretati da vettori, In particolare, ogni somma o integrazione sarà applicata sopra tutte le variabili eccetto quelle contenute in X.

[1]
Trumpler and Weaver (1962), pp. 32–33.

Everitt, B. S., The Cambridge Dictionary of Statistics, Cambridge University Press, 2002, ISBN 0-521-81099-X.
Trumpler, Robert J. and Harold F. Weaver, Statistical Astronomy, Dover Publications, 1962.