Prova de khi quadrat

En estadística i estadística aplicada es denomina prova de khi quadrat (pronunciat [xi]^{[lower-alpha 1]}) o prova de χ² a qualsevol contrast d'hipòtesis en el qual l'estadístic utilitzat segueix una distribució χ² si la hipòtesi nul·la és certa.^[1]^[2]^[3] Alguns exemples de proves χ² són els següents:

La prova de khi-quadrat de Pearson, la qual té nombroses aplicacions:

La prova χ² de freqüències.
La prova χ² d'independència.
La prova χ² de bondat d'ajust.

La prova de khi-quadrat de Pearson amb correcció per continuïtat o correcció de Yates.
La prova de Bartlett d'homogeneïtat de variàncies.

La prova és vàlida quan l'estadística de la prova és distribuïda khi quadrat sota la hipòtesi nul·la, específicament prova de khi quadrat de Pearson i variants d'aquesta. La prova de khi-quadrat de Pearson s'utilitza per a determinar si existeix una diferència estadísticament significativa entre la freqüència esperada i les freqüències observades en una o més categories d'una taula de contingència. Per a taules de contingència amb grandàries de mostra més petites s'utilitza en el seu lloc una prova exacta de Fisher.

En les aplicacions estàndard d'aquesta prova, les observacions es classifiquen en classes mútuament excloents. Si la hipòtesi nul·la segons la qual no hi ha diferències entre les classes de la població és certa, l'estadística de prova calculada a partir de les observacions segueix una distribució de freqüències $χ 2$ . El propòsit de la prova és avaluar quina probabilitat tindrien les freqüències observades suposant que la hipòtesi nul·la fos certa.

Els estadístics de prova que segueixen una distribució $χ 2$ ocorren quan les observacions són independents. També hi ha proves $χ 2$ per a provar la hipòtesi nul·la d'independència d'un parell de variables aleatòries basades en observacions dels parells.

El terme prova de khi quadrat sol referir-se a proves en les quals la distribució de l'estadístic de prova s'aproxima a la distribució $χ 2$ de forma asimptòtica, la qual cosa significa que la distribució mostral (si la hipòtesi nul·la és una certa) de l'estadístic de prova s'aproxima cada vegada més a una distribució khi quadrat a mesura que augmenten les grandàries de mostra.

Al segle xix, els mètodes d'anàlisi estadística s'aplicaven principalment en l'anàlisi de dades biològiques i era habitual que els investigadors assumissin que les observacions seguien una distribució normal, tal com feren Sir George Airy i Mansfield Merriman, els treballs dels quals van ser criticats per Karl Pearson al un article seu de 1900.^[4]

A la finals del segle XIX, Pearson es va adonar de l'existència d'una asimetria significativa en algunes observacions biològiques. Per a modelar les observacions independentment que fossin normals o esbiaixades, Pearson, en una sèrie d'articles publicats entre 1893 i 1916,^[5]^[6]^[7]^[8] va desenvolupar la distribució de Pearson, una família de distribucions de probabilitat contínua que inclou la distribució normal i nombroses distribucions esbiaixades, i va proposar un mètode d'anàlisi estadística consistent a utilitzar la distribució de Pearson per a modelar les observacions i realitzar proves de bondat d'ajust per a determinar si un model s'ajusta a les observacions.

Prova de khi quadrat de Pearson

El 1900 Pearson va publicar un treball^[4] sobre la prova $χ 2$ que és considerat una de les pedres fundacionals de l'estadística moderna.^[9] En aquest treball, Pearson va investigar una prova de bondat d'ajust.

Suposi's que $n$ observacions d'una mostra aleatòria d'una població es classifiquen en $k$ classes mútuament exclusives amb nombres observats respectius $x i$ (per a $i = 1,2\dots, k$ ), i una hipòtesi nul·la dona la probabilitat $p i$ que una observació caigui dintre la classe $i$ -èsima. S'obté, per tant, els nombres esperants $m i = np i$ per a tot $i$ , on:

{\begin{aligned}&\sum _{i=1}^{k}{p_{i}}=1\\[8pt]&\sum _{i=1}^{k}{m_{i}}=n\sum _{i=1}^{k}{p_{i}}=n\end{aligned}}

Pearson proposà que, sota la circumstància que la hipòtesi nul·la sigui correcta, si $n \to \infty$ la distribució limitant de la quantitat de sota és la distribució $χ 2$ .

X^{2}=\sum _{i=1}^{k}{\frac {(x_{i}-m_{i})^{2}}{m_{i}}}=\sum _{i=1}^{k}{{\frac {x_{i}^{2}}{m_{i}}}-n}

Pearson tractà primer el cas en el qual els nombres esperants $m i$ són nombres prou grans i coneguts en totes les cel·les assumint que tota observació $x i$ es pugui considerar normalment distribuïda, i arribà al resultat que, al límit quan $n$ esdevé molt gran, X² segueix la distribució $χ 2$ amb $k - 1$ graus de llibertat.

Tanmateix, a continuació Pearson considerà el cas en el qual els nombres esperats depenen dels paràmetres a estimar a partir de la mostra, i suggerí que, amb la notació de $m i$ sent els nombres esperats verdaders i $m' i$ sent els nombres esperats estimats, la diferència

X^{2}-{X'}^{2}=\sum _{i=1}^{k}{\frac {x_{i}^{2}}{m_{i}}}-\sum _{i=1}^{k}{\frac {x_{i}^{2}}{m'_{i}}}

usualment seria positiva i prou petita per a poder omesa. En conclusió, Pearson argumentà que si es mira X² també distribuïda com una distribució $χ 2$ amb $k - 1$ graus de llibertat, l'error d'aquesta aproximació no afecta les decisions pràctiques. Aquesta conclusió causà una mica de controvèrsia en aplicacions pràctiques i no es resolgué definitivament fins al cap de vint anys, amb la publicació dels articles de Fisher de 1922 i 1924.^[10]^[11]

Un estadístic de prova que segueix una distribució khi quadrat de manera exacta és el test que la variància d'una població normalment distribuïda té un cert valor basat en una variància mostral. Aquests tests són poc comuns a la pràctica perquè normalment es desconeix la variància real de la població. Tanmateix existeixen moltes proves estadítsiques en les quals la distribució khi quadrat és aproximadament vàlida:

Prova exacta de Fisher

Per a la prova exacta utilitzada en lloc de la prova de khi quadrat 2 × 2 d'independència, vegeu Prova exacta de Fisher.

Prova binomial

Per a la prova exacta utilitzada en lloc de la prova de khi quadrat 2 × 1 de bondat d'ajust, vegeu Prova binomial.

Altres proves de khi quadrat

Prova de khi quadrat de Cochran–Mantel–Haenszel.^[12]
Prova de McNemar, utilitzada en algunes taules 2 × 2 amb aparellament.^[13]
Prova d'addictivitat de Tukey.^[14]
Prova portmanteau en anàlisi de sèries temporals per a detectar la presència d'autocorrelació.^[15]
Prova de raó de versemblança en modelitzat estadístic general, per provar si hi ha evidència de la necessitat de moure d'un model simple a un de més complicat.^[16]

Suposi's que hi ha una ciutat amb 1.000.000 de residents amb quatre veïnats $A$ , $B$ , $C$ i $D$ . Es pren una mostra aleatòria de 650 residents de la ciutat i es classifiquen segons el tram de renda econòmica «baixa», «mitjana» o «alta». La hipòtesi nul·la és que el veïnat de residència de cada persona és independent de la seva posició de tram de renda econòmica. Les dades es troben tabulades en la següent taula:

Més informació A, B ...

	$A$	$B$	$C$	$D$	Total
Renda baixa	90	60	104	95	349
Renda mitjana	30	50	51	20	151
Renda alta	30	40	45	35	150
Total	150	150	200	150	650

Tanca

Prengui's la mostra de les persones que viuen al veïnat $A$ , 150, per tal d'estimar quina proporció del total d'1.000.000 habitants viuen al veïnat $A$ . De la mateixa manera, calculi's 349/650 per a estimar quina proporció dels 1.000.000 habitants són de renda baixa. Per assumpció d'independència sota la hipòtesi nul·la s'hauria d'"esperar" que el nombre de persones de «renda baixa» al veïnat $A$ són:

150\times {\frac {349}{650}}\approx 80.54

En aquesta cel·la de la taula es té que:

{\frac {\left({\text{observat}}-{\text{esperat}}\right)^{2}}{\text{esperat}}}={\frac {\left(90-80.54\right)^{2}}{80.54}}\approx 1.11

La suma d'aquestes quantitats sobre totes les cel·les és l'estadístic de prova; en aquest cas, $\approx 24.57$ . Sota la hipòtesi nul·la, aquesta suma té aproximadament una distribució de khi quadrat amb el següent nombre de graus de llibertat:

({\text{nombre de files}}-1)({\text{nombre de columnes}}-1)=(3-1)(4-1)=6

Si l'estadístic de prova és improbablement gran segons aquesta distribució de khi quadrat, es rebutja la hipòtesi nul·la d'independència.

Amb la primera lletra fricativa velar sorda; veure Khi.

[1]
«Prova de khi quadrat». Gran Enciclopèdia Catalana. Barcelona: Grup Enciclopèdia Catalana.
[2]
«Chi-Square Test». [Consulta: 28 juliol 2023].
[3]
«Chi-Square - Sociology 3112 - Department of Sociology - The University of utah». [Consulta: 28 juliol 2023].
[4]
Pearson, Karl «On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling». Philosophical Magazine, 50, 302, 1900, pàg. 157–175. DOI: 10.1080/14786440009463897.
[5]
Pearson, Karl «Contributions to the mathematical theory of evolution [abstract]». Proceedings of the Royal Society, 54, 1893, pàg. 329–333. DOI: 10.1098/rspl.1893.0079. JSTOR: 115538.
[6]
Pearson, Karl «Contributions to the mathematical theory of evolution, II: Skew variation in homogeneous material». Philosophical Transactions of the Royal Society, 186, 1895, pàg. 343–414. Bibcode: 1895RSPTA.186..343P. DOI: 10.1098/rsta.1895.0010. JSTOR: 90649.
[7]
Pearson, Karl «Mathematical contributions to the theory of evolution, X: Supplement to a memoir on skew variation». Philosophical Transactions of the Royal Society A, 197, 287–299, 1901, pàg. 443–459. Bibcode: 1901RSPTA.197..443P. DOI: 10.1098/rsta.1901.0023. JSTOR: 90841.
[8]
Pearson, Karl «Mathematical contributions to the theory of evolution, XIX: Second supplement to a memoir on skew variation». Philosophical Transactions of the Royal Society A, 216, 538–548, 1916, pàg. 429–457. Bibcode: 1916RSPTA.216..429P. DOI: 10.1098/rsta.1916.0009. JSTOR: 91092.
[9]
Cochran, William G. «The Chi-square Test of Goodness of Fit». The Annals of Mathematical Statistics, 23, 3, 1952, pàg. 315–345. DOI: 10.1214/aoms/1177729380. JSTOR: 2236678.
[10]
Fisher, Ronald A. «On the Interpretation of $χ 2$ from Contingency Tables, and the Calculation of P». Journal of the Royal Statistical Society, 85, 1, 1922, pàg. 87–94. DOI: 10.2307/2340521. JSTOR: 2340521.
[11]
Fisher, Ronald A. «The Conditions Under Which $χ 2$ Measures the Discrepancey Between Observation and Hypothesis». Journal of the Royal Statistical Society, 87, 3, 1924, pàg. 442–450. JSTOR: 2341149.
[12]
Rao, C.R.; Miller, J.P.; Rao, D.C.. Epidemiology and Medical Statistics. Elsevier Science, 2007, p. 604. ISBN 978-0-08-055421-1 [Consulta: 6 agost 2023].
[13]
Lawless, H.T.; Heymann, H. Sensory Evaluation of Food: Principles and Practices. Springer, 1999, p. 688. ISBN 978-0-8342-1752-2 [Consulta: 6 agost 2023].
[14]
Young, L.J.; Young, J. Statistical Ecology. Springer US, 1998, p. 52. ISBN 978-0-412-04711-4 [Consulta: 6 agost 2023].
[15]
Li, W.K.. Diagnostic Checks in Time Series. CRC Press, 2003, p. 3. ISBN 978-0-203-48560-6 [Consulta: 6 agost 2023].
[16]
Acock, A.C.. A Gentle Introduction to Stata, Second Edition. Stata Press, 2008, p. 276. ISBN 978-1-59718-043-6 [Consulta: 6 agost 2023].

Weisstein, Eric W., «Chi-Squared Test» a MathWorld (en anglès).
Corder, G. W.; Foreman, D. I.. Nonparametric Statistics: A Step-by-Step Approach. Nova York: Wiley, 2014. ISBN 978-1118840313.
Greenwood, Cindy; Nikulin, M. S.. A guide to chi-squared testing. Nova York: Wiley, 1996. ISBN 0-471-55779-X.
Nikulin, M. S.. Chi-squared test for normality. 2, 1973, p. 119–122.
Bagdonavicius, V.; Nikulin, M. S.. Chi-squared goodness-of-fit test for right censored data, 2011, p. 30–50.

[1] Amb la primera lletra fricativa velar sorda; veure Khi.

[2] [1]
«Prova de khi quadrat». Gran Enciclopèdia Catalana. Barcelona: Grup Enciclopèdia Catalana.

[3] [2]
«Chi-Square Test». [Consulta: 28 juliol 2023].

[4] [3]
«Chi-Square - Sociology 3112 - Department of Sociology - The University of utah». [Consulta: 28 juliol 2023].

[Pearson1900-5] [4]
Pearson, Karl «On the criterion that a given system of deviations from the probable in the case of a correlated system of variables is such that it can be reasonably supposed to have arisen from random sampling». Philosophical Magazine, 50, 302, 1900, pàg. 157–175. DOI: 10.1080/14786440009463897.

[Pearson1893-6] [5]
Pearson, Karl «Contributions to the mathematical theory of evolution [abstract]». Proceedings of the Royal Society, 54, 1893, pàg. 329–333. DOI: 10.1098/rspl.1893.0079. JSTOR: 115538.

[Pearson1895-7] [6]
Pearson, Karl «Contributions to the mathematical theory of evolution, II: Skew variation in homogeneous material». Philosophical Transactions of the Royal Society, 186, 1895, pàg. 343–414. Bibcode: 1895RSPTA.186..343P. DOI: 10.1098/rsta.1895.0010. JSTOR: 90649.

[Pearson1901-8] [7]
Pearson, Karl «Mathematical contributions to the theory of evolution, X: Supplement to a memoir on skew variation». Philosophical Transactions of the Royal Society A, 197, 287–299, 1901, pàg. 443–459. Bibcode: 1901RSPTA.197..443P. DOI: 10.1098/rsta.1901.0023. JSTOR: 90841.

[Pearson1916-9] [8]
Pearson, Karl «Mathematical contributions to the theory of evolution, XIX: Second supplement to a memoir on skew variation». Philosophical Transactions of the Royal Society A, 216, 538–548, 1916, pàg. 429–457. Bibcode: 1916RSPTA.216..429P. DOI: 10.1098/rsta.1916.0009. JSTOR: 91092.

[Cochran1952-10] [9]
Cochran, William G. «The Chi-square Test of Goodness of Fit». The Annals of Mathematical Statistics, 23, 3, 1952, pàg. 315–345. DOI: 10.1214/aoms/1177729380. JSTOR: 2236678.

[Fisher1922-11] [10]
Fisher, Ronald A. «On the Interpretation of $χ 2$ from Contingency Tables, and the Calculation of P». Journal of the Royal Statistical Society, 85, 1, 1922, pàg. 87–94. DOI: 10.2307/2340521. JSTOR: 2340521.

[Fisher1924-12] [11]
Fisher, Ronald A. «The Conditions Under Which $χ 2$ Measures the Discrepancey Between Observation and Hypothesis». Journal of the Royal Statistical Society, 87, 3, 1924, pàg. 442–450. JSTOR: 2341149.

[Rao_Miller_Rao_2007_p._604-13] [12]
Rao, C.R.; Miller, J.P.; Rao, D.C.. Epidemiology and Medical Statistics. Elsevier Science, 2007, p. 604. ISBN 978-0-08-055421-1 [Consulta: 6 agost 2023].

[Lawless_Heymann_1999_p._688-14] [13]
Lawless, H.T.; Heymann, H. Sensory Evaluation of Food: Principles and Practices. Springer, 1999, p. 688. ISBN 978-0-8342-1752-2 [Consulta: 6 agost 2023].

[Young_Young_1998_p._52-15] [14]
Young, L.J.; Young, J. Statistical Ecology. Springer US, 1998, p. 52. ISBN 978-0-412-04711-4 [Consulta: 6 agost 2023].

[Li_2003_p._3-16] [15]
Li, W.K.. Diagnostic Checks in Time Series. CRC Press, 2003, p. 3. ISBN 978-0-203-48560-6 [Consulta: 6 agost 2023].

[Acock_2008_p._276-17] [16]
Acock, A.C.. A Gentle Introduction to Stata, Second Edition. Stata Press, 2008, p. 276. ISBN 978-1-59718-043-6 [Consulta: 6 agost 2023].

[lower-alpha 1]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]