最大概似估計

在統計學中，最大概似估計（英語：maximum likelihood estimation，簡作MLE），也稱極大概似估計，是用來估計一個概率模型的參數的一種方法。

下方的討論要求讀者熟悉概率論中的基本定義，如概率分佈、概率密度函數、隨機變量、數學期望值等。讀者還須先熟悉連續實函數的基本性質，比如使用微分來求一個函數的極值（即極大值或極小值）。
同時，讀者須先擁有概似函數的背景知識，以了解最大概似估計的出發點及應用目的。

給定一個概率分佈 $D$ ，已知其概率密度函數（連續分佈）或概率質量函數（離散分佈）為 $f_{D}$ ，以及一個分佈參數 $\theta$ ，我們可以從這個分佈中抽出一個具有 $n$ 個值的採樣 $X_{1},X_{2},\ldots ,X_{n}$ ，利用 $f_{D}$ 計算出其概似函數：

{\mbox{L}}(\theta \mid x_{1},\dots ,x_{n})=f_{\theta }(x_{1},\dots ,x_{n}).

若 $D$ 是離散分佈， $f_{\theta }$ 即是在參數為 $\theta$ 時觀測到這一採樣的概率；若其是連續分佈， $f_{\theta }$ 則為 $X_{1},X_{2},\ldots ,X_{n}$ 聯合分佈的概率密度函數在觀測值處的取值。一旦我們獲得 $X_{1},X_{2},\ldots ,X_{n}$ ，我們就能求得一個關於 $\theta$ 的估計。最大概似估計會尋找關於 $\theta$ 的最可能的值（即，在所有可能的 $\theta$ 取值中，尋找一個值使這個採樣的「可能性」最大化）。從數學上來說，我們可以在 $\theta$ 的所有可能取值中尋找一個值使得概似函數取到最大值。這個使可能性最大的 ${\widehat {\theta }}$ 值即稱為 $\theta$ 的最大概似估計。由定義，最大概似估計是樣本的函數。

注意

這裏的概似函數是指 $x_{1},x_{2},\ldots ,x_{n}$ 不變時，關於 $\theta$ 的一個函數。
最大概似估計不一定存在，也不一定唯一。

推導

最大概似估計可以從相對熵推導而來。相對熵衡量了使用一個給定分佈 $Q$ 來近似另一個分佈 $P$ 時的資訊損失，對於離散型隨機變量，可以用以下公式：

$D_{\text{KL}}(P||Q)=\sum _{i}P(i)\log {\frac {P(i)}{Q(i)}}$

其中， $P$ 是真實分佈， $Q$ 是近似分佈。在最大概似估計的情景下，假設分佈擁有一系列參數 $\theta$ ，我們希望通過樣本得到參數的估計值 ${\hat {\theta }}$ 。我們可以利用相對熵來評判估計的好壞：

$D_{\text{KL}}(p_{\theta }(x)||p_{\hat {\theta }}(x))=\sum _{x\in E}p_{\theta }(x)\log {\frac {p_{\theta }(x)}{p_{\hat {\theta }}(x)}}$

根據期望值的定義，我們可以將上式改寫為：

${\begin{aligned}D_{\text{KL}}(p_{\theta }(x)||p_{\hat {\theta }}(x))&=\mathbb {E} _{\theta }\left[\log \left({\frac {p_{\theta }(x)}{p_{\hat {\theta }}(x)}}\right)\right]\\&=\mathbb {E} _{\theta }[\log p_{\theta }(x)]-\mathbb {E} _{\theta }[\log p_{\hat {\theta }}(x)]\end{aligned}}$

KL值越大，參數估計越壞，因此，需要通過改變估計參數 ${\hat {\theta }}$ 的值來獲得最小的值，所對應的參數極為最佳估計參數。即：

${\hat {\theta }}_{\text{best}}=\arg \min _{\hat {\theta }}D_{\text{KL}}(p_{\theta }(x)||p_{\hat {\theta }}(x))$

假設有 $n$ 個樣本，根據大數定理，可以進行替換：

$\mathbb {E} _{\theta }[\log p_{\hat {\theta }}(x)]\rightsquigarrow {\frac {1}{n}}\sum _{i=1}^{n}\log p_{\hat {\theta }}(x)$

即，可以通過下式評估：

$D_{\text{KL}}(p_{\theta }(x)||p_{\hat {\theta }}(x))=\mathbb {E} _{\theta }[\log p_{\theta }(x)]-{\frac {1}{n}}\sum _{i=1}^{n}\log p_{\hat {\theta }}(x_{i})$

對於一個已知的分佈，其參數 $\theta$ 是確定的。因此， $\mathbb {E} _{\theta }[\log p_{\theta }(x)]$ 為常數。因此，我們可以通過最小化KL值獲得最佳估計參數：

${\begin{aligned}{\hat {\theta }}&=\arg \min _{\hat {\theta }}\mathbb {E} _{\theta }[\log p_{\theta }(X)]-{\frac {1}{n}}\sum _{i=1}^{n}\log p_{\hat {\theta }}(x_{i})\\&\Rightarrow \arg \min _{\hat {\theta }}-{\frac {1}{n}}\sum _{i=1}^{n}\log p_{\hat {\theta }}(x_{i})\\&\Rightarrow \arg \max _{\hat {\theta }}{\frac {1}{n}}\sum _{i=1}^{n}\log p_{\hat {\theta }}(x_{i})\\&\Rightarrow \arg \max _{\hat {\theta }}\sum _{i=1}^{n}\log p_{\hat {\theta }}(x_{i})\\&\Rightarrow \arg \max _{\hat {\theta }}\log \left[\prod _{i=1}^{n}p_{\hat {\theta }}(x_{i})\right]\\&\Rightarrow \arg \max _{\hat {\theta }}\prod _{i=1}^{n}p_{\hat {\theta }}(x_{i})\\\end{aligned}}$

因此，要得到最佳參數估計值，只需要最大化 $\prod _{i=1}^{n}p_{\hat {\theta }}(x_{i})$ ，這就是最大概似函數。對於連續型隨機變量，有相同的結論。

離散分佈，離散有限參數空間

考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次（即，我們獲取一個採樣 $x_{1}={\mbox{H}},x_{2}={\mbox{T}},\ldots ,x_{80}={\mbox{T}}$ 並把正面的次數記下來，正面記為H，反面記為T）。並把拋出一個正面的概率記為 $p$ ，拋出一個反面的概率記為 $1-p$ （因此，這裏的 $p$ 即相當於上方的 $\theta$ ）。假設我們拋出了49個正面，31個反面，即49次H，31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子裏頭取出的。這三個硬幣拋出正面的概率分別為 $p=1/3$ , $p=1/2$ , $p=2/3$ ，這些硬幣沒有標記，所以我們無法知道哪個是哪個。使用最大概似估計，基於二項分佈中的概率質量函數公式，通過這些試驗數據（即採樣數據），我們可以計算出哪個硬幣的可能性最大。這個概似函數取以下三個值中的一個：

{\begin{matrix}\mathbb {L} (p=1/3\mid {\mbox{H=49, T=31 }})&=&\mathbb {P} ({\mbox{H=49, T=31 }}\mid p=1/3)&=&{80 \choose 49}(1/3)^{49}(1-1/3)^{31}\approx 0.000\\&&\\\mathbb {L} (p=1/2\mid {\mbox{H=49, T=31 }})&=&\mathbb {P} ({\mbox{H=49, T=31 }}\mid p=1/2)&=&{80 \choose 49}(1/2)^{49}(1-1/2)^{31}\approx 0.012\\&&\\\mathbb {L} (p=2/3\mid {\mbox{H=49, T=31 }})&=&\mathbb {P} ({\mbox{H=49, T=31 }}\mid p=2/3)&=&{80 \choose 49}(2/3)^{49}(1-2/3)^{31}\approx 0.054\\\end{matrix}}

我們可以看到當 ${\widehat {p}}=2/3$ 時，概似函數取得最大值。
顯然地，這硬幣的公平性和那種拋出後正面的概率是2/3的硬幣是最接近的。這就是 $p$ 的最大概似估計。

離散分佈，連續參數空間

現在假設例子1中的盒子中有無數個硬幣，對於 $0\leq p\leq 1$ 中的任何一個 $p$ ，都有一個拋出正面概率為 $p$ 的硬幣對應，我們來求其概似函數的最大值：

{\begin{matrix}{\mbox{L}}(\theta )&=&f_{D}({\mbox{H=49,T=80-49}}\mid p)={80 \choose 49}p^{49}(1-p)^{31}\\\end{matrix}}

其中 $0\leq p\leq 1$ . 我們可以使用微分法來求極值。方程兩邊同時對 $p$ 取微分，並使其為零。

{\begin{matrix}0&=&{80 \choose 49}{\frac {d}{dp}}\left(p^{49}(1-p)^{31}\right)\\&&\\&\propto &49p^{48}(1-p)^{31}-31p^{49}(1-p)^{30}\\&&\\&=&p^{48}(1-p)^{30}\left[49(1-p)-31p\right]\\\end{matrix}}

Thumb — 在不同比例參數值下一個二項式過程的可能性曲線t = 3, n = 10；其最大概似估計值發生在其眾數並在曲線的最大值處。

其解為 $p=0$ , $p=1$ ，以及 $p=49/80$ .使可能性最大的解顯然是 $p=49/80$ （因為 $p=0$ 和 $p=1$ 這兩個解會使可能性為零）。因此我們說最大概似估計值為 ${\widehat {p}}=49/80$ .

這個結果很容易一般化。只需要用一個字母 $t$ 代替49用以表達伯努利試驗中的被觀察數據（即樣本）的「成功」次數，用另一個字母 $n$ 代表伯努利試驗的次數即可。使用完全同樣的方法即可以得到最大概似估計值:

{\widehat {p}}={\frac {t}{n}}

對於任何成功次數為 $t$ ，試驗總數為 $n$ 的伯努利試驗。

連續分佈，連續參數空間

最常見的連續概率分佈是正態分佈，其概率密度函數如下：

f(x\mid \mu ,\sigma ^{2})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}

現在有 $n$ 個正態隨機變量的採樣點，要求的是一個這樣的正態分佈，這些採樣點分佈到這個正態分佈可能性最大（也就是概率密度積最大，每個點更靠近中心點），其 $n$ 個正態隨機變量的採樣的對應密度函數（假設其獨立並服從同一分佈）為：

f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{\frac {n}{2}}e^{-{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2\sigma ^{2}}}}

也可以寫為：

f(x_{1},\ldots ,x_{n}\mid \mu ,\sigma ^{2})=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left(-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)

,

這個分佈有兩個參數： $\mu ,\sigma ^{2}$ .有人可能會擔心兩個參數與上方的討論的例子不同，上方的例子都只是在一個參數上對可能性進行最大化。實際上，在兩個參數上的求最大值的方法也差不多：只需要分別把可能性 ${\mbox{L}}(\mu ,\sigma )=f(x_{1},,\ldots ,x_{n}\mid \mu ,\sigma ^{2})$ 在兩個參數上最大化即可。當然這比一個參數麻煩一些，但是一點也不複雜。使用上方例子同樣的符號，我們有 $\theta =(\mu ,\sigma ^{2})$ .

最大化一個概似函數同最大化它的自然對數是等價的。因為自然對數log是一個連續且在概似函數的值域內嚴格遞增的上凹函數。[注意：可能性函數（概似函數）的自然對數跟資訊熵以及費雪訊息聯繫緊密。]求對數通常能夠一定程度上簡化運算，比如在這個例子中可以看到：

{\begin{aligned}0&={\cfrac {\partial }{\partial \mu }}\log \left(\left({\cfrac {1}{2\pi \sigma ^{2}}}\right)^{\frac {n}{2}}e^{-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}}\right)\\&={\cfrac {\partial }{\partial \mu }}\left(\log \left({\cfrac {1}{2\pi \sigma ^{2}}}\right)^{\frac {n}{2}}-{\cfrac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=0-{\cfrac {-2n({\bar {x}}-\mu )}{2\sigma ^{2}}}\end{aligned}}

這個方程的解是 ${\widehat {\mu }}={\bar {x}}=\sum _{i=1}^{n}x_{i}/n$ .這的確是這個函數的最大值，因為它是 $\mu$ 裏頭惟一的一階導數等於零的點並且二階導數嚴格小於零。

同理，我們對 $\sigma$ 求導，並使其為零。

{\begin{aligned}0&={\cfrac {\partial }{\partial \sigma }}\log \left(\left({\cfrac {1}{2\pi \sigma ^{2}}}\right)^{\frac {n}{2}}e^{-{\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}}\right)\\&={\cfrac {\partial }{\partial \sigma }}\left({\cfrac {n}{2}}\log \left({\cfrac {1}{2\pi \sigma ^{2}}}\right)-{\cfrac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{2\sigma ^{2}}}\right)\\&=-{\cfrac {n}{\sigma }}+{\cfrac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}}{\sigma ^{3}}}\end{aligned}}

這個方程的解是 ${\widehat {\sigma }}^{2}=\sum _{i=1}^{n}(x_{i}-{\widehat {\mu }})^{2}/n$ .

因此，其關於 $\theta =(\mu ,\sigma ^{2})$ 的最大概似估計為：

{\widehat {\theta }}=({\widehat {\mu }},{\widehat {\sigma }}^{2})=({\bar {x}},\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}/n)

.

泛函不變性（Functional invariance）

如果 ${\hat {\theta }}$ 是 $\theta$ 的一個最大概似估計，那麼 $\alpha =g(\theta )$ 的最大概似估計是 ${\hat {\alpha }}=g({\hat {\theta }})$ 。函數g無需是一個對射。^[1]

漸近線行為

最大概似估計函數在採樣樣本總數趨於無窮的時候達到最小方差，其證明可見於克拉馬－羅下限（英語：Cramér–Rao bound）。當最大概似估計非偏時，等價的，在極限的情況下我們可以稱其有最小的均方差。對於獨立的觀察來說，最大概似估計函數經常趨於正態分佈。

偏差

最大概似估計的偏差是非常重要的。考慮這樣一個例子，標有 $1$ 到 $n$ 的 $n$ 張票放在一個盒子中。從盒子中隨機抽取票。如果 $n$ 是未知的話，那麼 $n$ 的最大概似估計值就是抽出的票上標有的 $n$ ，儘管其期望值的只有 $(n+1)/2$ .為了估計出最高的 $n$ 值，我們能確定的只能是 $n$ 值不小於抽出來的票上的值。

最大概似估計最早是由羅納德·費雪在1912年至1922年間推薦、分析並大範圍推廣的。^[2]（雖然以前高斯、拉普拉斯、托瓦爾·尼古拉·蒂勒和F. Y. 埃奇沃思也使用過）。^[3] 許多作者都提供了最大概似估計發展的回顧。^[4]

大部分的最大概似估計理論都在貝氏統計中第一次得到發展，並被後來的作者簡化。^[2]

均方差是衡量一個估計函數的好壞的一個量。

關於拉奧-布萊克韋爾定理（Rao-Blackwell theorem）的文章中討論到如何利用Rao-Blackwellisation過程尋找最佳無偏估計（即使均方差最小）的方法。而最大概似估計通常是一個好的起點。

讀者可能會對最大概似估計（如果存在）總是一個關於參數的充分統計量（sufficient statistic）的函數感興趣。

最大概似估計跟廣義矩估計（generalized method of moments）有關。

[1]
請參見George Casella與Roger L. Berger所著的Statistical Inference定理Theorem 7.2.10的證明。（中國大陸出版的大部分教材上也可以找到這個證明。）
[2]
Pfanzagl (1994)
[3]
Edgeworth & September 1908 and Edgeworth & December 1908
[4]
Savage (1976), Pratt (1976), Stigler （1978, 1986, 1999）, Hald （1998, 1999）, and Aldrich (1997)

關於最大概似估計的歷史的一篇論文，作者John Aldrich

[1] [1]
請參見George Casella與Roger L. Berger所著的Statistical Inference定理Theorem 7.2.10的證明。（中國大陸出版的大部分教材上也可以找到這個證明。）

[Pfanzagl-2] [2]
Pfanzagl (1994)

[3] [3]
Edgeworth & September 1908 and Edgeworth & December 1908

[4] [4]
Savage (1976), Pratt (1976), Stigler （1978, 1986, 1999）, Hald （1998, 1999）, and Aldrich (1997)

[1]

[2]

[3]

[4]

最大概似估計

注意