Modello logit - Wikiwand

In statistica, il modello logit, noto anche come modello logistico o regressione logistica, è un modello di regressione nonlineare utilizzato quando la variabile dipendente è di tipo dicotomico. L'obiettivo del modello è di stabilire la probabilità con cui un'osservazione può generare uno o l'altro valore della variabile dipendente; può inoltre essere utilizzato per classificare le osservazioni, in base alla caratteristiche di queste, in due categorie.^[1]

Thumb — Il modello logit è rappresentato in blu.

Il modello logit fa parte della classe dei modelli lineari generalizzati, così come il modello probit ed il modello loglineare, dai quali differisce essenzialmente per la scelta della funzione $\Lambda$ .^[1]

Remove ads

Scelta della funzione

Riepilogo

Prospettiva

Un modello di regressione dove la variabile dipendente è dicotomica, ossia una variabile che può avere come unici valori 0 e 1 o riconducibili ad essi, calcola la probabilità che questa variabile acquisisca valore 1. Poiché le probabilità per definizione sono limitate ad un intervallo $C=\left[0,1\right]$ , l'utilizzo di un modello di regressione lineare non sarebbe appropriato, infatti esso restituirebbe dei valori appartenenti all'intero insieme $\mathbb {R}$ .^[2] Si supponga infatti il seguente modello lineare:

\Pr(Y=1\mid X=x)=\beta _{0}+\beta _{1}X.

La derivata

{\frac {\partial }{\partial X}}\Pr(Y=1\mid X=x)=\beta _{1}

essendo costante e uguale al parametro $\beta _{1}$ , non permette alla funzione di cambiare pendenza in base al valore di $X$ e quindi di poter avere come codominio $C$ . Questa caratteristica è invece posseduta, ad esempio, dalle funzioni di ripartizione.^[2] L'utilizzo infatti di una funzione non lineare permette di avere una derivata prima dipendente da $X$ e quindi in grado di cambiare al variare di questa variabile. Se si considera infatti il seguente modello:

\Pr(Y=1\mid X=x)=F(\alpha _{0}+\alpha _{1}X),

dove la derivata è la seguente

{\frac {\partial }{\partial X}}\Pr(Y=1\mid X=x)=f(\alpha _{0}+\alpha _{1}X)\alpha _{1}.

Si nota come la pendenza della curva ora possa variare al variare di $X$ , potendo quindi possedere un codominio $C$ . Per il modello logit si utilizza come funzione $F$ la funzione di ripartizione della distribuzione logistica standard.^[1]

Remove ads

Definizione

Riepilogo

Prospettiva

Il modello di regressione logit per la popolazione è:^[1]^[3]

\mathbb {E} [Y\mid \mathbf {X} ]=\Pr(Y=1\mid X_{1},\ldots ,X_{k})=\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})={\frac {e^{\beta _{0}+\beta _{1}X_{1}+\ldots +\beta _{k}X_{k}}}{1+e^{\beta _{0}+\beta _{1}X_{1}+\ldots +\beta _{k}X_{k}}}}=p,

dove:

$\Pr$ indica la probabilità;
$Y$ è la variabile dipendente dicotomica con una distribuzione bernoulliana $Y\sim {\mathcal {B}}(p)$ ;
$\mathbf {X}$ è il vettore di variabili indipendenti o regressori $X_{1},\ldots ,X_{k}$ ;
${\boldsymbol {\beta }}$ è il vettore di parametri $\beta _{0},\ldots ,\beta _{k}$ ;
$\Lambda$ è la funzione di ripartizione della distribuzione logistica standard;
$e$ è il numero di Eulero, circa uguale a $2,71828$ .

Varianza

La varianza della variabile dipendente risulta dipendere dal vettore dei regressori $\mathbf {X}$ . Infatti

\mathrm {Var} (Y\mid \mathbf {X} )=\mathbb {E} \left[Y^{2}\mid \mathbf {X} \right]-\mathbb {E} \left[Y\mid \mathbf {X} \right]^{2}=\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})\cdot (1-\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})).

Effetto marginale

L'effetto marginale sulla variabile dipendente $Y$ dato da un cambiamento in un regressore continuo $X_{j}$ è calcolato come la derivata rispetto a $X_{j}$ del valore atteso $p=\mathbb {E} [Y\mid \mathbf {X} ]$ :^[1]

{\frac {\partial p}{\partial X_{j}}}={\frac {\partial }{\partial X_{j}}}\mathbb {E} [Y\mid \mathbf {X} ]={\frac {\partial }{\partial X_{j}}}\Lambda (\mathbf {X} ^{T}{\boldsymbol {\beta }})={\frac {\partial }{\partial X_{j}}}{\frac {e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}}={\frac {e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}}\cdot {\frac {1}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\beta }}}}}\cdot \beta _{j}=p(1-p)\beta _{j}

Poiché $p$ è una probabilità e quindi un numero compreso fra 0 e 1, il fattore $p(1-p)$ , e quindi l'effetto marginale, è massimo per $p=0,5$ e va a zero per $p$ che tende a 1 o 0. Quindi in un modello logistico l'effetto marginale tende a zero per probabilità attese molto alte o molto basse.

Remove ads

Illustrazione del metodo

Per ogni osservazione campionaria $i=1,\ldots ,n$ si dispone di una determinazione $Y$ e di $k$ determinazioni $X_{1},\ldots ,X_{k}$ . Il modello cerca una relazione non lineare, utilizzando la funzione di ripartizione della distribuzione logistica standard, tra la variabile dipendente e $k$ variabili indipendenti, stimando il valore dei coefficienti $\beta _{0},\ldots ,\beta _{k}$ tramite il metodo della massima verosimiglianza.^[1]

Stima del modello

Riepilogo

Prospettiva

Il vettore di parametri ${\boldsymbol {\beta }}$ è di norma stimato con il metodo della massima verosimiglianza, con il quale si ottengono stimatori efficienti, consistenti e distribuiti normalmente nel caso in cui il campione statistico sia abbastanza grande.^[4] Queste proprietà permettono di calcolare il test t su un parametro, il test F nel caso di restrizioni multiple e gli intervalli di confidenza.^[4] Alla stima dei parametri segue la stima della probabilità $p$ .

Funzione di verosimiglianza

Nel modello logit la variabile dipendente $Y$ è dicotomica e con distribuzione $Y\sim {\mathcal {B}}(p)$ . Si consideri un campione di $n$ osservazioni dove ciascuna di esse è identificata con $i=1,\ldots ,n$ . Per la definizione del modello, la probabilità che questa variabile sia 1 per una data osservazione $i$ è

\Pr(Y_{i}=1\mid X_{1i},\ldots ,X_{ki})=\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})=p_{i},

mentre la probabilità che sia 0 è

\Pr(Y_{i}=0\mid X_{1i},\ldots ,X_{ki})=1-\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})=1-p_{i}.

La distribuzione di probabilità condizionata per ogni elemento $i$ può essere scritta come

\Pr(Y_{i}=y_{i}\mid X_{1i},\ldots ,X_{ki})=p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}}.

Si considera ora l'intero campione e sia assume che $X_{1i},X_{2i},\ldots ,X_{ki},Y_{i}$ siano indipendenti e identicamente distribuite per ogni osservazione $i$ . Risulta quindi che la distribuzione di probabilità congiunta di $(Y_{1},\ldots ,Y_{n})$ è il prodotto delle probabilità condizionate di ogni osservazione:

{\begin{aligned}\Pr(Y_{1}=y_{1},\ldots ,Y_{n}=y_{n}\mid X_{1i},\ldots ,X_{ki})&=\Pr(Y_{1}=y_{1}\mid X_{11},\ldots ,X_{k1})\cdot \ldots \cdot \Pr(Y_{n}=y_{n}\mid X_{1n},\ldots ,X_{kn})=\\&=p_{1}^{y_{1}}(1-p_{1})^{1-y_{1}}\cdot \ldots \cdot p_{n}^{y_{n}}(1-p_{n})^{1-y_{n}}=\prod _{i=1}^{n}p_{i}^{y_{i}}(1-p_{i})^{1-y_{i}}.\end{aligned}}

Si riprende ora la definizione del modello logit e la si sostituisce al posto di $p_{i}$ , ottenendo quindi la funzione di verosimiglianza^[5]

{\begin{array}{l}{\mathcal {L}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki})=\\\qquad \displaystyle \prod _{i=1}^{n}\left[\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]^{Y_{i}}\left[1-\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]^{1-Y_{i}}.\end{array}}

Stima dei parametri

Per calcolare gli stimatori ${\hat {\beta }}_{0},{\hat {\beta }}_{1},\ldots ,{\hat {\beta }}_{k}$ dei parametri $\beta _{0},\beta _{1},\ldots ,\beta _{k}$ risulta conveniente calcolare la funzione di log-verosimiglianza poiché in questo modo si riesce a eliminare la produttoria. Si applica quindi il logaritmo alla funzione di verosimiglianza:

{\begin{array}{l}{\mathcal {l}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki})=\ln {\mathcal {L}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki})\\\qquad \displaystyle =\sum _{i=1}^{n}Y_{i}\ln \left[\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]+\sum _{i=1}^{n}(1-Y_{i})\ln \left[1-\Lambda (\beta _{0}+\beta _{1}X_{1i}+\ldots +\beta _{k}X_{ki})\right]\end{array}}

Gli stimatori calcolati con il metodo della massima verosimiglianza massimizzano la funzione precedente risolvendo il seguente problema:

\left\{{\hat {\beta }}_{0},{\hat {\beta }}_{1},\ldots ,{\hat {\beta }}_{k}\right\}_{MV}=\arg \max _{\beta _{0},\ldots ,\beta _{k}}{\mathcal {l}}_{\textrm {logit}}(\beta _{0},\ldots ,\beta _{k};Y_{1},\ldots ,Y_{n}\mid X_{1i},\ldots ,X_{ki}).

^[6]

Per semplificare la scrittura consideriamo ${\boldsymbol {\beta }}$ un vettore dei parametri $\beta _{0},\beta _{1},\ldots ,\beta _{k}$ , $\lambda$ la derivata di $\Lambda$ , ossia la funzione di densità di probabilità della distribuzione logistica, e $n$ il numero di osservazioni nel campione. Le condizioni per la massimizzazione sono due: quella di primo ordine dove la derivata prima rispetto ai parametri deve essere posta uguale a zero per trovare i punti estremanti, la seconda invece pone la derivata seconda, sempre rispetto ai parametri, minore di zero per determinare le concavità della funzione e quindi garantire che quelli trovati siano solo punti di massimo:

${\frac {\partial }{\partial {\boldsymbol {\beta }}}}{\mathcal {l}}_{\textrm {logit}}({\boldsymbol {\beta }};\mathbf {y} )=0\Longleftrightarrow \sum _{i=1}^{n}\left\{{\frac {y_{i}-\Lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})}{\Lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})\left[1-\Lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})\right]}}\cdot \lambda (\mathbf {x} _{i}'{\boldsymbol {\beta }})\right\}=0;$
${\frac {\partial ^{2}}{\partial {\boldsymbol {\beta }}\partial {\boldsymbol {\beta '}}}}{\mathcal {l}}_{\textrm {logit}}({\boldsymbol {\beta }};\mathbf {y} )<0.$

Solitamente le soluzioni di queste condizioni non sono semplici da determinare oppure non possono essere trovate affatto, ma per ovviare a questo problema si possono utilizzare dei programmi statistici per computer che, attraverso alcuni algoritmi, trovano delle loro approssimazioni.^[6]

Stima della probabilità

Quando è stato calcolato il vettore ${\boldsymbol {\hat {\beta }}}$ , ossia la stima del vettore dei parametri ${\boldsymbol {\beta }}$ , è possibile procedere alla stima della probabilità $p$ . Per definizione del modello, questa probabilità è anche il valore atteso di $Y$ .

{\hat {p}}={\hat {\mathbb {E} }}\left[Y\mid \mathbf {X} \right]=\Lambda (\mathbf {X} ^{T}{\hat {\boldsymbol {\beta }}})={\frac {e^{\mathbf {X} ^{T}{\hat {\boldsymbol {\beta }}}}}{1+e^{\mathbf {X} ^{T}{\boldsymbol {\hat {\beta }}}}}}.

Remove ads

Esempio in python

Riepilogo

Prospettiva

Utilizzando la regressione logistica nel linguaggio di programmazione python si vuole predire se una persona è malata di cuore oppure no , mediante parametri tra cui la pressione arteriosa e il livello di colesterolo nel sangue ecc. contenuti in un dataset liberamente scaricabile da Github. La variabile da predire è target che assume 1 se la persona è malata, 0 altrimenti. Si divide il dataset in un Training Set pari all'80% delle osservazioni su cui si addestra il modello logistico, ed il restante 20% delle osservazioni rappresenta il Testing Set su cui si calcola l'Accuracy per valutare se il modello predice bene la malattia:

import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Caricamento del dataset
url = "https://raw.githubusercontent.com/g-shreekant/Heart-Disease-Prediction-using-Machine-Learning/refs/heads/master/heart.csv"
df = pd.read_csv(url)

# Definizione delle feature e della variabile target
X = df.drop(columns=['target'])  # Feature
y = df['target']  # Variabile target (0 = no malattia, 1 = malattia)

# Suddivisione in Training e Testing Set
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

# Normalizzazione delle feature
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Creazione e addestramento del modello di Regressione Logistica
model = LogisticRegression()
model.fit(X_train, y_train)

# Predizioni sul testing set
y_pred = model.predict(X_test)

# Valutazione del modello
accuracy = accuracy_score(y_test, y_pred)
print(f'Accuracy: {accuracy:.4f}')

Accuracy: 0.8033

Essendo l'accuracy pari all'80,33% il modello logistico predice bene la malattia.

Remove ads

Note

Loading content...

Bibliografia

Loading content...

Voci correlate

Loading content...

Altri progetti

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads