Interval de confiança

En estadística matemàtica, un interval de confiança d'un paràmetre poblacional (per exemple, la mitjana poblacional) és un interval numèric construït a partir d'una mostra, el qual conté aquest paràmetre amb determinada probabilitat (per exemple, el 95 %) que s'anomena el nivell de confiança.

El nivell de confiança desitjat és establert per l'investigador (no és determinat per les dades). És molt habitual utilitzar el nivell de confiança del 95%,^[1] no obstant això, es poden utilitzar altres nivells de confiança, per exemple, el 90% o el 99%.

En contrast amb un estimador puntual d'un paràmetre, on es dona un únic nombre, en un interval de confiança, tal com hem dit, es proporciona tot un rang de nombres entre dos valors, i a més, es quantifica en termes probabilístics la confiança que es té en què aquest interval contindrà l'autèntic valor del paràmetre.

Quan es proporciona un interval de confiança es suposa que les dades poblacionals tenen determinades característiques, més o menys exigents; en els casos més habituals es suposa que ho fan mitjançant la distribució normal. La construcció d'intervals de confiança també es pot realitzar usant el teorema central del límit, la desigualtat de Txebixev, o altres tècniques.

Els intervals de confiança intervenen en pràcticament totes les àrees de l'estadística; en aquest article ens limitarem a considerar alguns dels casos més habituals, concretament, els intervals de confiança per a la mitjana d'una població normal amb desviació típica coneguda o no, i l'interval de confiança per a una proporció en una població de mida gran.

Exemple introductori. Estimació puntual i per interval de l'alçada de les dones d'un poble

Les alçades de 10 dones de 18 anys d'un poble són les següents^[2] (en cm): $166,\,171'2,169'1,\,163'4,\,165,\,163'6,\,158'2,\,163'9,\,169'5,\,168'9$ (Per claredat tipogràfica, en tot l'article escriurem els decimals de la forma 171'2 en lloc de 171,2). L'alçada mitjana és ${\overline {X}}={\frac {166+171'2+\cdots +169'8}{10}}=165'88.$ Però el que volem és estimar l'alçada mitjana de totes les dones de 18 anys, que designarem per $m$ , i no només la de les dones de la mostra. El nombre 165'88 és un estimador puntual d'aquesta mitjana $m$ , i normalment s'escriu ${\widehat {m}}={\overline {X}}=165'88\ {\rm {cm}}.$ Però, ¿estem segurs que $m=165'88$ ? ¿No podria ser que $m=168$ o que $m=162$ ? Aquests dubtes provenen del fet que hem preguntat a 10 dones, i per estar segurs de la mitjana de tota la població hauríem de preguntar a totes les dones! Però podem afinar més aquest resultat i quantificar la incertesa associada amb aquesta estimació. Per fer això, necessitem un model estadístic adient: suposarem que l'alçada de les dones de 18 anys d'aquell poble segueix una distribució normal de mitjana $m$ i desviació típica $d$ ; en altres paraules, l'alçada genèrica d'una dona de 18 anys es modelitza per una variable aleatòria ${\textstyle X\sim {\mathcal {N}}(m,d^{2})}$ . En mesurar les alçades de 10 dones tenim 10 variables aleatòries, que s'anomenen una mostra, $X_{1},\dots ,X_{10}.$ Aquestes variables aleatòries són independents (suposem que la mostra s'ha triat a l'atzar) i cadascuna d'aquestes variables segueix la mateixa distribució que la genèrica: $X_{i}\sim {\mathcal {N}}(m,d^{2}),\,i=1,\dots ,10.$ Els nombres concrets obtinguts, 166, 171'2, etc. s'anomenen una realització de la mostra.

En aquesta primera part suposarem que a partir d'estudis anteriors o per comparació amb dades similars, que la desviació típica és coneguda: $d=4$ .

Interval de confiança per a la mitjana

Volem calcular un interval de confiança per a $m$ ; per concretar, començarem calculant un interval amb una confiança del 95% (equivalentment, en tant per u, una confiança de 0'95). Per tal d'escriure fórmules generals designarem la mida de la mostra per $n$ , i la mitjana mostral per ${\overline {X}}$ ${\overline {X}}={\frac {\sum _{i=1}^{n}X_{i}}{n}}.$ Argumentarem més endavant que un interval amb confiança del 95% per $m$ s'obté per la fórmula ${\Big [}{\overline {X}}-1'96\,{\frac {d}{\sqrt {n}}},\,{\overline {X}}+1'96\,{\frac {d}{\sqrt {n}}}{\Big ]}.\qquad \qquad (1)$ En aquest exemple, tenim que l'interval és ${\Big [}165'88-1'96{\frac {4}{\sqrt {10}}},\,165'88+1'96{\frac {4}{\sqrt {10}}}{\Big ]}=[163'4,\,168'36].$ Es diu que $m\in [163'4\,,168'36]\quad {\text{amb confiança de 0'95}}.$ (o confiança del 95%). Atès que $1'96\,\cdot 4/{\sqrt {10}}=2'48$ , també s'escriu $m=165'88\pm 2'48,\ {\text{amb confiança 0'95}}.$ Cal entendre que la confiança la tenim en la fórmula (1), no en l'interval $[163'4,\,168'36]$ , això és, tenim la probabilitat $P{\bigg (}m\in {\Big [}{\overline {X}}-1'96{\frac {d}{\sqrt {n}}},\,{\overline {X}}+1'96{\frac {d}{\sqrt {n}}}{\Big ]}{\bigg )}=0'95,$ és a dir, quan utilitzem la fórmula (1), el 95% de les vegades l'interval resultant contindrà l'autèntic valor de $m$ . Si, per exemple utilitzem la fórmula 20 vegades (en pobles de similars característiques), aleshores 19 intervals contindran l'autèntic valor de $m$ i 1 no el contindrà. (Per aquest motiu es diu que la feina d'estadístic és l'única en què ets pots equivocar el 5% de les vegades sense que et despatxin).

I si volem més confiança?

Raonarem més endavant que si volem una confiança del 99%, aleshores a la fórmula (1) cal canviar 1'96 per 2'58, i per tant, la fórmula a utilitzar és ${\Big [}{\overline {X}}-2'58{\frac {d}{\sqrt {n}}},\,{\overline {X}}+2'58{\frac {d}{\sqrt {n}}}{\Big ]}.\qquad (2)$ A l'exemple, l'interval de confiança del 99% és ${\Big [}165'88-2'58{\frac {4}{\sqrt {10}}},\,165'88+2'58{\frac {4}{\sqrt {10}}}{\Big ]}=[162'62,\,169'14].$ Noteu que en augmentar la confiança també augmenta la llargada de l'interval, vegeu la figura 1. Per tant, com més confiança volem tenir, és a dir, com més segurs vulguem estar que l'interval que calculem conté l'autèntic valor del paràmetre desconegut, més llarg ens donarà l'interval. Pregunta al lector: ¿quin seria l'interval per tenir una confiança del 100%?

Formula general de l'interval de confiança per la mitjana d'una població normal amb desviació típica coneguda

Donat un nivell de confiança $\gamma \in (0,1)$ , que habitualment és 0'9, 0'95 o 0'99 (s'expressa en tant per u; si es vol en tant per cent, es multiplica per 100), aleshores l'interval de confiança és ${\Big [}{\overline {X}}-z_{\gamma }\,{\frac {d}{\sqrt {n}}},\,{\overline {X}}+z_{\gamma }\,{\frac {d}{\sqrt {n}}}{\Big ]},\qquad (3)$ on $z_{\gamma }$ és el nombre tal que $P(-z_{\gamma }\leq Z\leq z_{\gamma })=\gamma ,$ on $Z\sim {\mathcal {N}}(0,1)$ és una variable aleatòria normal estàndard. Aquest nombre $z_{\gamma }$ es troba en unes taules estadístiques o bé amb un full de càlcul (per exemple, l'excel) o un programari estadístic (per exemple, l'R). Pels casos més habituals tenim:

Més informació

...

$\gamma$	$z_{\gamma }$
0,90	1,64485
0,95	1,95996
0,99	2,57583

Tanca

La confiança, la llargada de l'interval i la mida de la mostra

Hi ha un factor que encara no hem tingut en compte i és la mida de la mostra $n$ ; en l'exemple que estem considerant hem pres $n=10$ per tal de treballar amb un nombre petit de dades, però, en general, les mides mostrals són més grans, ja que, d'acord amb la fórmula (3), en augmentar $n$ , disminueix la llargada de l'interval de confiança.

Així, en un interval de confiança hi ha tres ingredients:

El nivell de confiança $\gamma$ . Evidentment, com més gran sigui $\gamma$ més confiarem que l'interval ens proporciona valors correctes per $m$ .

La llargada de l'interval, que també s'anomena la precisió. És clar que com més petita sigui la llargada, millor.

La mida de la mostra $n$ . Com més gran sigui, més precisió tindrem (més curt serà l'interval), però prendre una mostra és car, en temps o en diners.

L'ideal seria tenir la màxima confiança, la mínima llargada de l'interval i la mida de mostra petita, però tot alhora no pot ser: aquests tres ingredients és com si fossin els angles d'un triangle (vegeu la Figura 2): dos angles determinen el tercer: si volem molta confiança i molta precisió caldrà prendre una mida de mostra molt gran, que serà molt car! (<<Res és perfecte>>, sospirà la guineu...)

Demostració de la fórmula de l'interval de confiança

Per simplificar les notacions veurem a demostració pel cas d'una confiança $\gamma =0'95$ . De les propietats de les variables aleatòries normals es dedueix que

${\overline {X}}={\frac {\sum _{i=1}^{n}X_{i}}{n}}\sim {\mathcal {N}}(m,\,d^{2}/n).$ Normalitzant aquesta variable tenim ${\frac {{\overline {X}}-m}{d/{\sqrt {n}}}}\sim {\mathcal {N}}(0,\,1).$ D'altra banda, per a qualsevol variable $Z\sim {\mathcal {N}}(0,1)$ , $P(-1'96\leq Z\leq 1'96)=0'95,$ Llavors, $P{\bigg (}-1'96\leq {\frac {{\overline {X}}-m}{d/{\sqrt {n}}}}\leq 1'96{\bigg )}=0'95,$ d'on s'obté $P{\bigg (}{\overline {X}}-1'96{\frac {d}{\sqrt {n}}}\leq m\leq {\overline {X}}+1'96{\frac {d}{\sqrt {n}}}{\bigg )}=0'95,$ o equivalentment, $P{\bigg (}m\in {\Big [}{\overline {X}}-1'96{\frac {d}{\sqrt {n}}},\,{\overline {X}}+1'96{\frac {d}{\sqrt {n}}}{\Big ]}{\bigg )}=0'95,$ expressió que també s'escriu $m\in {\Big [}{\overline {X}}-1'96{\frac {d}{\sqrt {n}}},\,{\overline {X}}+1'96{\frac {d}{\sqrt {n}}}{\Big ]},\ {\text{amb probabilitat 0'95.}}$

Interval de confiança per a la mitjana d'una població normal amb desviació típica desconeguda

Quan la desviació típica de la població és desconeguda, aleshores es fa una estimació a partir de la mostra utilitzant la desviació típica mostral modificada $S={\sqrt {\frac {\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}}{n-1}}}.$ Llavors, l'interval amb nivell de confiança $\gamma \in (0,1)$ és ${\Big [}{\overline {X}}-t_{\gamma }\,{\frac {S}{\sqrt {n}}},\,{\overline {X}}+t_{\gamma }\,{\frac {S}{\sqrt {n}}}{\Big ]},\qquad \qquad (4)$

on $t_{\gamma }$ és el nombre tal que $P(-t_{\gamma }\leq T_{n-1}\leq t_{\gamma })=\gamma ,$ on $T_{n-1}$ és una variable aleatòria amb distribució $t$ de Student amb $n-1$ graus de llibertat.

En resum, si la desviació típica $d$ és desconeguda, aleshores per calcular l'interval de confiança per a $m$ fem dos canvis:

Canviem la quantitat desconeguda $d$ per l'estimació $S$ .
Canviem el valor $z_{\gamma }$ de la fórmula (3) obtingut amb una llei normal estàndard pel valor $t_{\gamma }$ calculat a partir d'una variable $t$ de Student amb $n-1$ graus de llibertat.

Tornem a l'exemple de les alçades

Si a l'exemple de les alçades de les dones de 18 anys no suposem la desviació típica coneguda, aleshores l'estimem per $S$ , que dona $S={\sqrt {\frac {(166-165'88)^{2}+\cdots +(168'9-165'88)^{2}}{9}}}=3'89.$ Per calcular l'interval de confiança del 95% necessitem el valor $t_{0'95}$ corresponent a una $t$ de Student amb 9 graus de llibertat. Igual que el cas de la llei normal, aquest valor es troba en unes taules estadístiques o bé amb un full de càlcul o un programari estadístic. S'obté $t_{0'95}=2'26.$ Llavors, l'interval és ${\Big [}165'88-2'26\,{\frac {3'89}{\sqrt {10}}},\,165'88+2'26\,{\frac {3'89}{\sqrt {10}}}{\Big ]}=[163'1,\,168'66].$ Cal notar que l'interval que hem calculat suposant la desviació típica coneguda tenia una longitud de 4'96 cm, mentre que aquest últim mesura 5'56 cm i, per tant, és més llarg. Això és degut al fet que en estimar la desviació típica introduïm més incertesa en els càlculs.

Demostració de la fórmula de l'interval de confiança amb desviació típica desconeguda

El genial estadístic anglès R. A. Fisher va demostrar el 1923 que, sota les hipòtesis de normalitat que estem suposant, la variable aleatòria ${\frac {{\overline {X}}-m}{S/{\sqrt {n}}}}$ segueix una distribució $t$ de Student amb $n-1$ graus de llibertat.^[3] Aleshores, donat un nivell de confiança $\gamma$ , tal com dit, busquem el nombre $t_{\gamma }$ tal que $P(-t_{\gamma }\leq T_{n-1}\leq t_{\gamma })=\gamma ,$ on $T_{n-1}$ és una variable aleatòria amb distribució $t$ de Student amb $n-1$ graus de llibertat. Llavors, tindrem $P{\bigg (}-t_{\gamma }\leq {\frac {{\overline {X}}-m}{S/{\sqrt {n}}}}\leq t_{\gamma }{\bigg )}=\gamma .$ Ara es procedeix exactament igual que en la demostració de l'interval de confiança amb desviació típica coneguda que hem vist abans i es dedueix la fórmula (4).

Interval de confiança per a una proporció (cas d'una població gran)

Exemple

Segons dades del Centre d'Estudis d'Opinó ^[4] en una enquesta a 800 persones, entre 12 i 79 anys, a Catalunya realitzada a finals de 2018, 323 persones van dir que utilitzaven la bicicleta amb alguna freqüència (diàriament o esporàdicament). A la mostra, la proporció de gent que utilitza la bicicleta és ${\widehat {p}}={\frac {323}{800}}=0'404,$

o, equivalentment, un 40'4% de la mostra. Però estem interessats en estimar la proporció en tota la població de Catalunya, no només a la mostra.

Fórmula de l'interval de confiança per una proporció

Considerem una població gran ^[5]^[6] (a l'exemple, <<persones de Catalunya entre 12 i 79 anys>>) en la qual una proporció $p$ (desconeguda) té determinada característica (a l'exemple, <<utilitza la bicicleta amb alguna freqüència>>). Volem estimar $p$ , i amb aquest objectiu prenem una mostra de mida $n$ , i designem per ${\widehat {p}}$ la proporció obtinguda en la mostra de mida.^[7] Suposarem també que la mida de la població és gran. Per construir un interval de confiança per a $p$ , del Teorema central del límit es dedueix que, si la mida de la mostra $n$ és gran, llavors ${\widehat {p}}$ té una distribució aproximadament normal de mitjana $p$ i variància $p(1-p)/n$ ; s'escriu ${\widehat {p}}\quad \approx _{n\ {\text{gran}}}\quad {\cal {N}}{\big (}p,p(1-p)/n{\big )}.$ Exactament igual que en el cas de l'interval de confiança per a la mitjana $m$ , es demostra que per un nivell de confiança $\gamma \in (0,1)$ l'interval de confiança per a $p$ és

${\Bigg [}{\widehat {p}}-z_{\gamma }\,{\sqrt {\frac {p(1-p)}{n}}},\,{\widehat {p}}+z_{\gamma }\,{\sqrt {\frac {p(1-p)}{n}}}{\Bigg ]}.\qquad \qquad (5)$ on $P(-z_{\gamma }\leq Z\leq z_{\gamma })=\gamma ,$

on $Z$ és una variable aleatòria normal estàndard. Però la fórmula (5) depén de $p$ , que és desconeguda, i llavors es substitueix per la seva estimació ${\widehat {p}}$ i s'obté ${\Bigg [}{\widehat {p}}-z_{\gamma }\,{\sqrt {\frac {{\widehat {p}}(1-{\widehat {p}})}{n}}},\,{\widehat {p}}+z_{\gamma }\,{\sqrt {\frac {{\widehat {p}}(1-{\widehat {p}})}{n}}}{\Bigg ]}.\qquad \qquad (6)$ Equivalentment, aquest interval també s'escriu ${\widehat {p}}\pm z_{\gamma }\,{\sqrt {\frac {{\widehat {p}}(1-{\widehat {p}})}{n}}}.$ Aplicat a l'exemple de la bicicleta, amb un nivell de confiança $\gamma =0'95$ , tenim que l'interval és ${\Bigg [}0'404-1'96\,{\sqrt {\frac {0'404(1-0'404)}{800}}},\,0'404-1'96\,{\sqrt {\frac {0'404(1-0'404)}{800}}}{\Bigg ]}=[0'37,\,0'438].$ O, escrit d'una altra manera, $0,404\pm 0,034.$

Una altra manera de calcular l'amplada de l'interval

Hem passat de la fórmula (5) a la fórmula (6) canviant la quantitat desconeguda $p$ per l'estimació ${\widehat {p}}$ . Un mètode diferent per resoldre la dificultat que a (5) intervé una quantitat desconeguda és basa en el fet que $0\leq p(1-p)\leq 0'25\quad p\in [0,1].$

Això es veu gràficament perquè la funció $y=x(1-x)$ és una paràbola invertida amb el vèrtex al punt (0'5, 0'25). Vegeu la Figura 3. Aleshores, l'interval de confiança més llarg possible (el que tindrà menys precisió) serà el corresponent a $p=0'5$ , i l'interval de confiança serà ${\Bigg [}{\widehat {p}}-z_{\gamma }\,{\frac {0'5}{\sqrt {n}}},\,{\widehat {p}}+z_{\gamma }\,{\frac {0'5}{\sqrt {n}}}{\Bigg ]}.\qquad \qquad (7)$ O escrit d'una altra manera, ${\widehat {p}}\pm z_{\gamma }\,{\frac {0'5}{\sqrt {n}}}.\qquad \qquad (8)$ Aquest interval és diu que és el més conservador, ja que el que pretén és ser molt prudent i intentar equivocar-nos el mínim possible. A l'exemple de la bicicleta, amb $\gamma =0'95$ , aquest interval és $[0'369,\,0'439]$ . Aquest interval té una longitud 0'07, lleugerament més gran que l'anterior de 0'068. En aquest cas la diferència és petita perquè l'estimació ${\widehat {p}}$ és propera a 0'5.

Una recepta per a la mida de la mostra

A l'Estadística hi ha fórmules per a calcular en diversos casos la mida de la mostra necessària per assolir una confiança i precisió donades. Com a exemple, veurem el cas de la proporció.

Suposem que volem una confiança del 95% i que l'interval tingui una llargada màxima de 0'05, és a dir, que l'error sigui com a màxim d'un 2.5 % en més o menys. D'acord amb la fórmula (5), la llargada de l'interval és ${\text{llargada interval}}=2\cdot 1'96\,{\sqrt {\frac {p(1-p)}{n}}}.$ Atès que volem que la llargada de l'interval sigui 0'05, tenim $2\cdot 1'96\,{\sqrt {\frac {p(1-p)}{n}}}=0.05.$ Aïllant $n$ , $n=6146'56\,p(1-p).$ Ara, tal com hem fet a l'apartat anterior, ens posem en el pitjor dels casos, on $p(1-p)=0'25$ , d'on $n=6146'56\cdot 0'25=1536'64,$ i, per tant, hem de prendre $n=1537.$

Referències

Loading content...

Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.