在統計學中,最大似然估計(英語:maximum likelihood estimation,簡作MLE),也稱極大似然估計,是用來估計一個概率模型的參數的一種方法。
下方的討論要求讀者熟悉概率論中的基本定義,如概率分布、概率密度函數、隨機變量、數學期望等。讀者還須先熟悉連續實函數的基本性質,比如使用微分來求一個函數的極值(即極大值或極小值)。
同時,讀者須先擁有似然函數的背景知識,以了解最大似然估計的出發點及應用目的。
給定一個概率分布,已知其概率密度函數(連續分布)或概率質量函數(離散分佈)為,以及一個分佈參數,我們可以從這個分布中抽出一個具有個值的採樣,利用計算出其似然函數:
若是離散分布,即是在參數為時觀測到這一採樣的概率;若其是連續分布,則為聯合分布的概率密度函數在觀測值處的取值。一旦我們獲得,我們就能求得一個關於的估計。最大似然估計會尋找關於的最可能的值(即,在所有可能的取值中,尋找一個值使這個採樣的「可能性」最大化)。從數學上來說,我們可以在的所有可能取值中尋找一個值使得似然函數取到最大值。這個使可能性最大的值即稱為的最大似然估計。由定義,最大似然估計是樣本的函數。
最大似然估計可以從相對熵推導而來。相對熵衡量了使用一個給定分布來近似另一個分布時的信息損失,對於離散型隨機變量,可以用以下公式:
其中,是真實分布,是近似分布。在最大似然估計的情景下,假設分布擁有一系列參數,我們希望通過樣本得到參數的估計值。我們可以利用相對熵來評判估計的好壞:
根據期望的定義,我們可以將上式改寫為:
KL值越大,參數估計越壞,因此,需要通過改變估計參數的值來獲得最小的值,所對應的參數極為最佳估計參數。即:
假設有個樣本,根據大數定理,可以進行替換:
即,可以通過下式評估:
對於一個已知的分布,其參數是確定的。因此,為常數。因此,我們可以通過最小化KL值獲得最佳估計參數:
因此,要得到最佳參數估計值,只需要最大化,這就是最大似然函數。對於連續型隨機變量,有相同的結論。
考慮一個拋硬幣的例子。假設這個硬幣正面跟反面輕重不同。我們把這個硬幣拋80次(即,我們獲取一個採樣並把正面的次數記下來,正面記為H,反面記為T)。並把拋出一個正面的概率記為,拋出一個反面的概率記為(因此,這裡的即相當於上方的)。假設我們拋出了49個正面,31個反面,即49次H,31次T。假設這個硬幣是我們從一個裝了三個硬幣的盒子裡頭取出的。這三個硬幣拋出正面的概率分別為, , ,這些硬幣沒有標記,所以我們無法知道哪個是哪個。使用最大似然估計,基於二項分布中的概率質量函數公式,通過這些試驗數據(即採樣數據),我們可以計算出哪個硬幣的可能性最大。這個似然函數取以下三個值中的一個:
我們可以看到當時,似然函數取得最大值。
顯然地,這硬幣的公平性和那種拋出後正面的機率是2/3的硬幣是最接近的。這就是的最大似然估計。
最常見的連續概率分布是正態分布,其概率密度函數如下:
現在有個正態隨機變量的採樣點,要求的是一個這樣的正態分布,這些採樣點分布到這個正態分布可能性最大(也就是概率密度積最大,每個點更靠近中心點),其個正態隨機變量的採樣的對應密度函數(假設其獨立並服從同一分布)為:
也可以寫為:
- ,
這個分布有兩個參數:.有人可能會擔心兩個參數與上方的討論的例子不同,上方的例子都只是在一個參數上對可能性進行最大化。實際上,在兩個參數上的求最大值的方法也差不多:只需要分別把可能性在兩個參數上最大化即可。當然這比一個參數麻煩一些,但是一點也不複雜。使用上方例子同樣的符號,我們有.
最大化一個似然函數同最大化它的自然對數是等價的。因為自然對數log是一個連續且在似然函數的值域內嚴格遞增的上凹函數。[注意:可能性函數(似然函數)的自然對數跟信息熵以及費雪訊息聯繫緊密。]求對數通常能夠一定程度上簡化運算,比如在這個例子中可以看到:
這個方程的解是.這的確是這個函數的最大值,因為它是裡頭惟一的一階導數等於零的點並且二階導數嚴格小於零。
同理,我們對求導,並使其為零。
這個方程的解是.
因此,其關於的最大似然估計為:
- .
最大似然估計函數在採樣樣本總數趨於無窮的時候達到最小方差,其證明可見於克拉馬-羅下限。當最大似然估計非偏時,等價的,在極限的情況下我們可以稱其有最小的均方差。
對於獨立的觀察來說,最大似然估計函數經常趨於正態分布。
最大似然估計最早是由羅納德·費雪在1912年至1922年間推薦、分析並大範圍推廣的。[2](雖然以前高斯、拉普拉斯、托瓦爾·尼古拉·蒂勒和F. Y. 埃奇沃思也使用過)。[3] 許多作者都提供了最大似然估計發展的回顧。[4]
大部分的最大似然估計理論都在貝葉斯統計中第一次得到發展,並被後來的作者簡化。[2]