Loading AI tools
stima di valori probabili per un parametro Da Wikipedia, l'enciclopedia libera
In statistica, quando si stima un parametro, è spesso insufficiente individuare un singolo valore: è opportuno allora accompagnare la stima con un intervallo di valori probabili per quel parametro, definito intervallo di confidenza (o intervallo di fiducia, o intervallo fiduciario).[1]
Va osservato che l'espressione “intervallo di confidenza”, ormai entrata irreversibilmente nell'uso italiano, è una traduzione approssimativa dell'espressione inglese confidence interval, nella quale però confidence sta per fiducia.
Se e sono variabili casuali con distribuzioni di probabilità che dipendono da qualche parametro e (dove è un numero tra 0 e 1), allora l'intervallo casuale , calcolato sul campione osservato, è un intervallo di confidenza al per . I valori estremi dell'intervallo di confidenza si chiamano limiti di confidenza.
A questo intervallo di confidenza si associa quindi un valore di probabilità cumulativa che caratterizza, indirettamente in termini di probabilità, la sua ampiezza rispetto ai valori massimi assumibili dalla variabile aleatoria. Cioè il valore di probabilità cumulativa indica la probabilità che l'evento casuale descritto dalla variabile aleatoria cada all'interno di suddetto intervallo di confidenza, graficamente pari all'area sottesa dalla curva di distribuzione di probabilità della variabile aleatoria nell'intervallo considerato.
È bene non confondere l'intervallo di confidenza con la probabilità. Perciò l'espressione "vi è un livello di confidenza del 95% che sia nell'intervallo", non indica la probabilità che cada nell'intervallo, in quanto non è una variabile aleatoria nella logica frequentista ( è invece interpretata come una costante non nota); bensì, indica che nel 95% dei casi in cui questa tecnica viene adottata, questa produce un intervallo che contiene il valore vero di .[2]
Si ipotizzi di voler calcolare l'età media degli abitanti di un luogo. Supponiamo che non si conosca l'età per ogni singolo abitante. Viene allora estratto un campione casuale di abitanti di cui è possibile sapere l'età, e dal campione si tenta di inferire ("predire") l'età media per tutta la popolazione residente e la variabilità di tale dato.
Questo può essere fatto in vari modi, ad esempio calcolando l'età media delle persone presenti nel campione e ipotizzando che questo valore coincida con l'età media di tutta la popolazione, inclusa quella non scelta nel campione. In questo caso si è fatta una "stima puntuale".
In alternativa, partendo dalle età delle persone nel campione si può calcolare un intervallo di valori entro il quale si ritenga ci sia il valore della media di tutta la popolazione e, se la procedura è fatta in modo rigoroso e statisticamente corretto, è possibile stabilire un valore di "confidenza" di quanto sia "credibile" che l'intervallo ottenuto contenga effettivamente il valore cercato. In questo caso si è fatta una "stima per intervalli" e l'intervallo ottenuto è detto intervallo di confidenza.
Riassumendo: la stima puntuale fornisce un valore singolo che varia a seconda del campione, e difficilmente coincide con il valore vero della popolazione; la stima per intervalli fornisce un insieme di valori (intervallo) che con una certa "confidenza" contiene il valore vero della popolazione[3].
Se è una variabile aleatoria di media e varianza con si indica la variabile campionaria corrispondente che ha media aritmetica degli dati osservati nel campione
Il livello di confidenza è fissato dal ricercatore. Il valore scelto più di frequente è 95%[4]. Tuttavia, meno di frequente, viene scelto anche un livello di confidenza del 90%, oppure del 99%.
Se il valore di non differisce molto dalla variabilità della popolazione, può essere assunto come suo stimatore (ad esempio con un numero di soggetti osservati e replicazioni complessivamente maggiore di 60; in alternativa si ipotizza una distribuzione t di Student caratterizzata da una maggiore dispersione rispetto alla normale standard)[5]. In questa prima ipotesi, l'intervallo di confidenza per la media (vera media, della popolazione[3]) al 99% (al livello ), è dato da:
Al 95% è dato da:
Prima della diffusione dei computer si cercava di utilizzare l’approssimazione normale ogni qualvolta possibile. Adesso non è più strettamente necessario, e nella formula possono essere utilizzati percentili di altre distribuzioni, facendo riferimento a campioni di dimensione più ridotta)[5].
Dalle formule risulta che i due intervalli di confidenza possono essere scritti in funzione dei soli dati campionari .
Oltre a diminuire con il livello di confidenza, l'ampiezza dell'intervallo dipende dall'errore della stima e diminuisce se:
Qualora la popolazione non segua il modello gaussiano, se il campione è grande a sufficienza, la variabile campionaria tende a seguire comunque una legge normale (teorema centrale del limite). In altre parole, le due formule precedenti per l'intervallo di confidenza si possono usare anche nel caso in cui non è nota la sua legge di probabilità.
Il livello di confidenza o copertura è il complemento a uno del livello di significatività : ad esempio, un intervallo di confidenza al corrisponde a un livello di significatività di [6].
Gli intervalli di confidenza sono spesso confusi con altri concetti della statistica, e talora oggetto di errate interpretazioni anche da parte di ricercatori professionisti[7][8][9][10]. Alcuni errori comuni:
Gli intervalli di confidenza furono introdotti da Jerzy Neyman in un articolo pubblicato nel 1937[12].
C'è un metodo agevole per il calcolo degli intervalli di confidenza attraverso il test di verifica d'ipotesi (secondo l'impostazione di Neyman).
Un intervallo di confidenza al 95% si può quindi ricavare da un test di verifica d'ipotesi di significatività 5%.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.