Máxima verosimilitude

En estatística, a estimación por máxima verosimilitude ou máxima verosemellanza^[1] (coñecida tamén como EMV e, en ocasións, MLE polas súas siglas en inglés) é un método habitual para axustar un modelo e estimar os seus parámetros.

O método foi recomendado, analizado e popularizado por R. A. Fisher entre 1912 e 1922, aínda que fora utilizado antes por Carl Friedrich Gauss, Pierre-Simon Laplace, Thorvald N. Thiele e Francis Edgeworth.^[2]

Supóñase que se ten unha mostra x₁, x₂, …, x_n de n observacións independentes e identicamente distribuídas extraídas dunha función de distribución descoñecida con función de densidade (ou función de probabilidade) f₀(·). Sábese, con todo, que f₀ pertence a unha familia de distribucións { f(·|θ), θ ∈ Θ }, chamada modelo paramétrico, de maneira que f₀ corresponde a θ = θ₀, que é o verdadeiro valor do parámetro. Deséxase atopar o valor $\scriptstyle {\hat {\theta }}$ (ou estimador) que estea o máis próximo posible ao verdadeiro valor θ₀.

Tanto x_i como θ poden ser vectores.

A idea deste método é a de atopar primeiro a función de densidade conxunta de todas as observacións, que baixo condicións de independencia, é

f(x_{1},x_{2},\ldots ,x_{n}\;|\;\theta )=f(x_{1}|\theta )\cdot f(x_{2}|\theta )\cdots f(x_{n}|\theta )\,

Observando esta función baixo un ángulo lixeiramente distinto, pódese supor que os valores observados x₁, x₂, …, x_n son fixos mentres que θ pode variar libremente. Esta é a función de verosimilitude:

{\mathcal {L}}(\theta \,|\,x_{1},\ldots ,x_{n})=\prod _{i=1}^{n}f(x_{i}|\theta ).

Na práctica, adóitase utilizar o logaritmo desta función:

{\hat {\ell }}(\theta \,|\,x_{1},\ldots ,x_{n})=\ln {\mathcal {L}}=\sum _{i=1}^{n}\ln f(x_{i}|\theta ).

O método da máxima verosimilitude estima θ₀ buscando o valor de θ que maximiza $\scriptstyle {\hat {\ell }}(\theta |x)$ . Este é o chamado estimador de máxima verosimilitude (MLE) de θ₀:

{\hat {\theta }}_{\mathrm {mle} }={\underset {\theta \in \Theta }{\operatorname {arg\,max} }}\ {\hat {\ell }}(\theta \,|\,x_{1},\ldots ,x_{n}).

En ocasións este estimador é unha función explícita dos datos observados x₁, …, x_n, pero moitas veces hai que recorrer a optimizacións numéricas. Tamén pode ocorrer que o máximo non sexa único ou non exista.

Na exposición anterior asumiuse a independencia das observacións, pero non é un requisito necesario: abonda con poder construír a función de probabilidade conxunta dos datos para poder aplicar o método. Un contexto no que isto é habitual é o da análise de series temporais.

En moitos casos, o estimador obtido por máxima verosimilitude posúe un conxunto de propiedades asintóticas atractivas:

consistencia,
normalidade asintótica,
eficiencia,
e mesmo eficiencia de segunda orde tras corrixir o nesgo.

Consistencia

Baixo certas condicións bastante habituais,^[3] o estimador de máxima verosimilitude é consistente: se o número de observacións n tende a infinito, o estimador $\scriptstyle {\hat {\theta }}$ converxe en probabilidade ao seu valor verdadeiro:

{\hat {\theta }}_{\mathrm {mle} }\ {\xrightarrow {p}}\ \theta _{0}\ .

Baixo condicións algo máis fortes,^[3] a converxencia é case segura:

{\hat {\theta }}_{\mathrm {mle} }\ {\xrightarrow {a.s.}}\ \theta _{0}\ .

Normalidade asintótica

Se as condicións para a consistencia se cumpren e ademais

$\theta _{0}\in \operatorname {int} (\Theta )$ ;
$f(x|\theta )>0$ e é dúas veces continuamente diferenciable respecto a $\theta$ nalgunha veciñanza N de $\theta _{0}$ ;
$\int \sup _{\theta \in \mathbb {N} }\lVert \nabla _{\theta }f(x|\theta )\lVert dx<\infty$ e $\int \sup _{\theta \in \mathbb {N} }\lVert \nabla _{\theta \theta }f(x|\theta )\lVert dx<\infty$
$I=\mathbb {E} \left[\nabla _{\theta }\ln f(x|\theta _{0})\nabla _{\theta }\ln f(x|\theta _{0})'\right]$ existe e non é singular;
$\mathbb {E} \left[\sup _{\theta \in \mathbb {N} }\lVert \nabla _{\theta \theta }\ln f(x|\theta )\lVert \right]<\infty$ ,

entón o estimador de máxima verosimilitude ten unha distribución asintótica normal:^[4]

{\sqrt {n}}{\big (}{\hat {\theta }}_{\mathrm {mle} }-\theta _{0}{\big )}\ {\xrightarrow {d}}\ {\mathcal {N}}(0,\,I^{-1}).

Invariancia funcional

Se ${\widehat {\theta }}$ é o EMV de θ e g(θ) é unha transformación de θ, entón o EMV de α = g(θ) é

{\widehat {\alpha }}=g({\widehat {\theta }}).\,\!

Ademais, o EMV é invariante fronte a certas transformacións dos datos. En efecto, se $Y=g(X)$ e $g$ é unha aplicación bixectiva que non depende dos parámetros que se estiman, entón a función de densidade de Y é

f_{Y}(y)=f_{X}(x)/|g'(x)|

É dicir, as funcións de densidade de X e Y difiren unicamente nun termo que non depende dos parámetros. Así, por exemplo, o EMV para os parámetros dunha distribución lognormal son os mesmos que os dunha distribución normal axustada sobre o logaritmo dos datos de entrada.

Outras propiedades

O EMV é √n-consistente e asintóticamente eficiente. En particular, isto significa que o nesgo é cero até a orde n^−1/2. Con todo, ao obter os termos de maior orde da expansión de Edgeworth da distribución do estimador, θ_emv ten un nesgo de orde ⁻¹. Este nesgo é igual a^[5]

b_{s}\equiv \operatorname {E} [({\hat {\theta }}_{\mathrm {mle} }-\theta _{0})_{s}]={\frac {1}{n}}\cdot I^{si}I^{jk}{\big (}{\tfrac {1}{2}}K_{ijk}+J_{j,ik}{\big )},

fórmula onde se adoptou a convención de Einstein para expresar sumas; I^jk representa a j,k-ésima compoñente da inversa da matriz de información de Fisher e

{\tfrac {1}{2}}K_{ijk}+J_{j,ik}=\operatorname {E} {\bigg [}\;{\frac {1}{2}}{\frac {\partial ^{3}\ln f_{\theta _{0}}(x_{t})}{\partial \theta _{i}\,\partial \theta _{j}\,\partial \theta _{k}}}+{\frac {\partial \ln f_{\theta _{0}}(x_{t})}{\partial \theta _{j}}}{\frac {\partial ^{2}\ln f_{\theta _{0}}(x_{t})}{\partial \theta _{i}\,\partial \theta _{k}}}\;{\bigg ]}.

Grazas a estas fórmulas é posible estimar o nesgo de segunda orde do estimador e corrixilo mediante subtracción:

{\hat {\theta }}_{\mathrm {mle} }^{*}={\hat {\theta }}_{\mathrm {mle} }-{\hat {b}}.

Este estimador, non nesgado até a orde n⁻¹, chámase estimador de máxima verosimilitud con corrección do nesgo.

Distribución uniforme discreta

Supóñase que n bólas numeradas de 1 a n se colocan nunha urna e que unha delas se extrae ao azar. Se se descoñece n, o seu EMV é o número m que aparece na bóla extraída: a función de verosimilitude é 0 para n < m e 1/n para n ≥ m; que alcanza o seu máximo cando n = m. A esperanza matemática de ${\hat {n}}$ , é (n + 1)/2. Como consecuencia, o EMV de n infravalorará o verdadeiro valor de n por (n − 1)/2.

Distribución discreta con parámetros discretos

Supóñase que se lanza unha moeda nesgada ao aire 80 veces. A mostra resultante pode ser x₁ = H, x₂ = T, ..., x₈₀ = T, e cóntase o número de caras, "H". A probabilidade de que saia cara é p e a de que saia cruz, 1 − p (de modo que p é o parámetro θ). Supóñase que se obteñen 49 caras e 31 cruces. Imaxínese que a moeda se extraeu dunha caixa que contiña tres delas e que estas teñen probabilidades p iguais a 1/3, 1/2 e 2/3 aínda que non se sabe cal delas é cal.

A partir dos datos obtidos do experimento pódese saber cal é a moeda coa máxima verosimilitude. Empregando a función de probabilidade da distribución binomial cunha mostra de tamaño 80, número de éxitos igual a 49 e distintos valores de p, a función de verosimilitude toma os tres valores seguintes:

{\begin{aligned}\Pr(\mathrm {H} =49\mid p=1/3)&={\binom {80}{49}}(1/3)^{49}(1-1/3)^{31}\approx 0.000,\\[6pt]\Pr(\mathrm {H} =49\mid p=1/2)&={\binom {80}{49}}(1/2)^{49}(1-1/2)^{31}\approx 0.012,\\[6pt]\Pr(\mathrm {H} =49\mid p=2/3)&={\binom {80}{49}}(2/3)^{49}(1-2/3)^{31}\approx 0.054.\end{aligned}}

A verosimilitude é máxima cando p = 2/3 e este é, polo tanto, o EMV de p.

O estimador de máxima verosimilitude úsase dentro dun gran número de modelos estatísticos:

modelos lineares xeneralizados
análise factorial
análise de ecuacións estruturais
tests estatísticos

[1]
Masa Vázquez, Xosé M.; Fortes López, Belén (1995). Servizo de Normalización Lingüística da Universidade de Santiago de Compostela, ed. Vocabulario de Matemáticas. Santiago de Compostela. ISBN 84-8121-369-1.
[2]
Edgeworth (Sep 1908, Dec 1908)
[3]
(Newey & McFadden 1994, Theorem 2.5.)
[4]
(Newey & McFadden 1994, Theorem 3.3.)
[5]
(Cox & Snell 1968, formula (20))

Bibliografía

Aldrich, John (1997). "R.A. Fisher and the making of maximum likelihood 1912–1922" (3). doi:10.1214/ss/1030037906. 1617519.
Anderson, Erling B. 1970. "Asymptotic Properties of Conditional Maximum Likelihood Estimators". Journal of the Royal Statistical Society B 32, 283-301.
Andersen, Erling B. 1980. Discrete Statistical Models with Social Science Applications. North Holland, 1980.
Debabrata Basu. Statistical Information and Likelihood : A Collection of Critical Essays by Dr. D. Basu ; J.K. Ghosh, editor. Lecture Notes in Statistics Volume 45, Springer-Verlag, 1988.
Cox, D.R.; Snell, E.J. (1968). "A general definition of residuals".
"On the probable errors of frequency-constants" (3)., F.E. (Sep de 1908). ()
"On the probable errors of frequency-constants" (4)., F.E. (Dec de 1908). ()
Ferguson, Thomas S (1996). A course in large sample theory. Chapman & Hall.
Hald, Anders (1998). A history of mathematical statistics from 1750 to 1930. Wiley.
Hald, Anders (1999). "On the history of maximum likelihood in relation to inverse probability and least squares" (2).
Kano, E. (1996). "Third-order efficiency implies fourth-order efficiency".
Lle Cam, Lucien (1990). "Maximum likelihood — an introduction" (2).
Lle Cam, Lucien; O Yang, Grace (2000). Asymptotics in statistics: some basic concepts. Springer. ISBN 0-387-95036-2.
Lle Cam, Lucien (1986). Asymptotic methods in statistical decision theory. Springer-Verlag. 1986.
Theory of Point Estimation, 2nd ed. Springer. ISBN 0-387-98502-6., E.L.; Casella, G. (1998).
Newey, Whitney K.; McFadden, Daniel (1994). Large sample estimation and hypothesis testing. Handbook of econometrics, vol.IV, Ch.36. Elsevier Science.
Pratt, John W. (1976). "F. Y. Edgeworth and R. A. Fisher on the efficiency of maximum likelihood estimation" (3).
Savage, Leonard J. (1976). "On rereading R. A. Fisher" (3).
Stigler, Stephen M. (1978). "Francis Ysidro Edgeworth, statistician" (3).
Stigler, Stephen M. (1986). The history of statistics: the measurement of uncertainty before 1900. Harvard University Press. 1986. ISBN 0-674-40340-1.
Stigler, Stephen M. (1999). Statistics on the table: the history of statistical concepts and methods. Harvard University Press. 1999. ISBN 0-674-83601-4.
van der Vaart, A.W. (1998). Asymptotic Statistics. ISBN 0-521-78450-6.

Outros artigos

Función de verosimilitude
Algoritmo esperanza-maximización

Ligazóns externas

[1] [1]
Masa Vázquez, Xosé M.; Fortes López, Belén (1995). Servizo de Normalización Lingüística da Universidade de Santiago de Compostela, ed. Vocabulario de Matemáticas. Santiago de Compostela. ISBN 84-8121-369-1.

[2] [2]
Edgeworth (Sep 1908, Dec 1908)

[ReferenceA-3] [3]
(Newey & McFadden 1994, Theorem 2.5.)

[4] [4]
(Newey & McFadden 1994, Theorem 3.3.)

[5] [5]
(Cox & Snell 1968, formula (20))

[1]

[2]

[3]

[4]

[5]