In statistica, il modello logit, noto anche come modello logistico o regressione logistica, è un modello di regressione nonlineare utilizzato quando la variabile dipendente è di tipo dicotomico. L'obiettivo del modello è di stabilire la probabilità con cui un'osservazione può generare uno o l'altro valore della variabile dipendente; può inoltre essere utilizzato per classificare le osservazioni, in base alla caratteristiche di queste, in due categorie.[1]

Thumb
Il modello logit è rappresentato in blu.

Il modello logit fa parte della classe dei modelli lineari generalizzati, così come il modello probit ed il modello loglineare, dai quali differisce essenzialmente per la scelta della funzione .[1]

Scelta della funzione

Thumb
La funzione logit. L'inversa di questa funzione è utilizzata nella regressione logistica.

Un modello di regressione dove la variabile dipendente è dicotomica, ossia una variabile che può avere come unici valori 0 e 1 o riconducibili ad essi, calcola la probabilità che questa variabile acquisisca valore 1. Poiché le probabilità per definizione sono limitate ad un intervallo , l'utilizzo di un modello di regressione lineare non sarebbe appropriato, infatti esso restituirebbe dei valori appartenenti all'intero insieme .[2] Si supponga infatti il seguente modello lineare:

La derivata

essendo costante e uguale al parametro , non permette alla funzione di cambiare pendenza in base al valore di e quindi di poter avere come codominio . Questa caratteristica è invece posseduta, ad esempio, dalle funzioni di ripartizione.[2] L'utilizzo infatti di una funzione non lineare permette di avere una derivata prima dipendente da e quindi in grado di cambiare al variare di questa variabile. Se si considera infatti il seguente modello:

dove la derivata è la seguente

Si nota come la pendenza della curva ora possa variare al variare di , potendo quindi possedere un codominio . Per il modello logit si utilizza come funzione la funzione di ripartizione della distribuzione logistica standard.[1]

Definizione

Il modello di regressione logit per la popolazione è:[1][3]

dove:

  • indica la probabilità;
  • è la variabile dipendente dicotomica con una distribuzione bernoulliana ;
  • è il vettore di variabili indipendenti o regressori ;
  • è il vettore di parametri ;
  • è la funzione di ripartizione della distribuzione logistica standard;
  • è il numero di Eulero, circa uguale a .

Varianza

La varianza della variabile dipendente risulta dipendere dal vettore dei regressori . Infatti

Effetto marginale

L'effetto sulla variabile dipendente dato da un cambiamento in un regressore , chiamato effetto marginale, è calcolato come la derivata del valore atteso di rispetto a :

dove è il parametro associato al regressore .[1] Per il calcolo della derivata il regressore deve essere continuo.

Illustrazione del metodo

Per ogni osservazione campionaria si dispone di una determinazione e di determinazioni . Il modello cerca una relazione non lineare, utilizzando la funzione di ripartizione della distribuzione logistica standard, tra la variabile dipendente e variabili indipendenti, stimando il valore dei coefficienti tramite il metodo della massima verosimiglianza.[1]

Stima del modello

Il vettore di parametri è di norma stimato con il metodo della massima verosimiglianza, con il quale si ottengono stimatori efficienti, consistenti e distribuiti normalmente nel caso in cui il campione statistico sia abbastanza grande.[4] Queste proprietà permettono di calcolare il test t su un parametro, il test F nel caso di restrizioni multiple e gli intervalli di confidenza.[4] Alla stima dei parametri segue la stima della probabilità .

Funzione di verosimiglianza

Nel modello logit la variabile dipendente è dicotomica e con distribuzione . Si consideri un campione di osservazioni dove ciascuna di esse è identificata con . Per la definizione del modello, la probabilità che questa variabile sia 1 per una data osservazione è

mentre la probabilità che sia 0 è

La distribuzione di probabilità condizionata per ogni elemento può essere scritta come

Si considera ora l'intero campione e sia assume che siano indipendenti e identicamente distribuite per ogni osservazione . Risulta quindi che la distribuzione di probabilità congiunta di è il prodotto delle probabilità condizionate di ogni osservazione:

Si riprende ora la definizione del modello logit e la si sostituisce al posto di , ottenendo quindi la funzione di verosimiglianza[5]

Stima dei parametri

Per calcolare gli stimatori dei parametri risulta conveniente calcolare la funzione di log-verosimiglianza poiché in questo modo si riesce a eliminare la produttoria. Si applica quindi il logaritmo alla funzione di verosimiglianza:

Gli stimatori calcolati con il metodo della massima verosimiglianza massimizzano la funzione precedente risolvendo il seguente problema:

[6]

Per semplificare la scrittura consideriamo un vettore dei parametri , la derivata di , ossia la funzione di densità di probabilità della distribuzione logistica, e il numero di osservazioni nel campione. Le condizioni per la massimizzazione sono due: quella di primo ordine dove la derivata prima rispetto ai parametri deve essere posta uguale a zero per trovare i punti estremanti, la seconda invece pone la derivata seconda, sempre rispetto ai parametri, minore di zero per determinare le concavità della funzione e quindi garantire che quelli trovati siano solo punti di massimo:

Solitamente le soluzioni di queste condizioni non sono semplici da determinare oppure non possono essere trovate affatto, ma per ovviare a questo problema si possono utilizzare dei programmi statistici per computer che, attraverso alcuni algoritmi, trovano delle loro approssimazioni.[6]

Stima della probabilità

Quando è stato calcolato il vettore , ossia la stima del vettore dei parametri , è possibile procedere alla stima della probabilità . Per definizione del modello, questa probabilità è anche il valore atteso di .

Note

Bibliografia

Voci correlate

Altri progetti

Wikiwand in your browser!

Seamless Wikipedia browsing. On steroids.

Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.

Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.