贝叶斯推断

贝叶斯推断（英語：Bayesian inference）是推論統計的一种方法。这种方法使用贝叶斯定理，在有更多證據及信息時，更新特定假设的概率。贝叶斯推断是统计学（特別是数理统计学）中很重要的技巧之一。贝叶斯更新（Bayesian updating）在序列分析中格外的重要。贝叶斯推断應用在許多的領域中，包括科學、工程學、哲學、醫學、體育運動、法律等。在决策论的哲學中，贝叶斯推断和主觀概率有密切關係，常常稱為贝叶斯概率。

此條目需要精通或熟悉相关主题的编者参与及协助编辑。 (2017年2月2日)

贝叶斯定理是由統計學家托馬斯·貝葉斯（Thomas Bayes）根據許多特例推導而成，後來被許多研究者推廣為一普遍的定理^[1]。

貝叶斯定理的簡介

正式的介绍贝叶斯推断

贝叶斯推断將后验概率（考慮相關證據或數據後，某一事件的條件機率）作为先验概率（考慮相關證據或數據前，某一事件不確定性的機率）和似然函数（由观测数据的统计模型（概率模型）推導而得）这两个前因导出的結果。贝叶斯推断根據贝叶斯定理計算后验概率：

P(H\mid E)={\frac {P(E\mid H)\cdot P(H)}{P(E)}}

其中

$\textstyle \mid$ 表示将某事件成立作为条件（因此 $\textstyle (A\mid B)$ 表示「假定 B 事件成立下，A 事件發生」）
$\textstyle H$ 表示假說，其機率可能會受實驗數據（以下會稱為證據）影響。一般來說會有許多互相矛盾的假說，任務是要確認哪一個假說可能性最高。
$\textstyle E$ 表示證據。证据对应新的數據，也就是還沒用來計算先验概率的數據。
$\textstyle P(H)$ ，先验概率，是觀察到數據 $\textstyle E$ （目前證據）之前，假說 $\textstyle H$ 的機率。
$\textstyle P(H\mid E)$ ，后验概率，是在給定證據 $\textstyle E$ 之後，假說 $\textstyle H$ 的機率，是希望求得的資訊，也就是在有目前證據時，假說 $\textstyle H$ 的機率。
$\textstyle P(E\mid H)$ 是假定 $\textstyle H$ 成立時，觀察到 $\textstyle E$ 的機率。在 $\textstyle H$ 不變時，這是 $\textstyle E$ 的函數，也是似然函数，指出在給定假設下假說和證據的相容程度。似然函数是證據 $\textstyle E$ 的函數，而后验概率是假說 $\textstyle H$ 的函數。
$\textstyle P(E)$ 有時會稱為邊緣似然率（英语：marginal likelihood）。此係數對所有可能的假說都是定值，因此在判斷不同假說的相對機率時，不會用到這個係數中。

針對不同的 $\textstyle H$ 數值，只有 $\textstyle P(H)$ 和 $\textstyle P(E\mid H)$ （都在分子）會影響 $\textstyle P(H\mid E)$ 的數值。假說的后验概率和其先验概率（固有似然率）和新產生的似然率（假說和新得到證據的相容性）乘積成正比。

贝叶斯定理也可以寫成下式：

P(H\mid E)={\frac {P(E\mid H)}{P(E)}}\cdot P(H)

其中係數 $\textstyle {\frac {P(E\mid H)}{P(E)}}$ 可以解釋成 $E$ 對 $H$ 機率的影響。

非正式的介绍贝叶斯推断

贝叶斯推断最關鍵的點是可以利用贝叶斯定理結合新的證據及以前的先驗機率，來得到新的機率（這和频率学派推断相反，頻率論推論只考慮證據，不考慮先驗機率）。

而且贝叶斯推断可以迭代使用：在觀察一些證據後得到的後設機率可以當作新的先驗機率，再根據新的證據得到新的後設機率。因此贝叶斯定理可以應用在許多不同的證據上，不論這些證據是一起出現或是不同時出現都可以，這個程序稱為贝叶斯更新（Bayesian updating）。

贝叶斯推断的描述

定義

$x$ 是數據點，可能是一個有許多數值形成的向量（英语：random vector）。
$\theta$ 是數據點分佈的参数，也就是說 $x\sim p(x\mid \theta )$ 。這也有可能是参数形成的向量。
$\alpha$ 是參數的超參數（英语：hyperparameter），也就是說 $\theta \sim p(\theta \mid \alpha )$ 。這也有可能是超参数形成的向量。
$\mathbf {X}$ ，由觀測到的 $n$ 個數據點組成的一組數據， $x_{1},\ldots ,x_{n}$ .
${\tilde {x}}$ ，需預測分佈的新數據點。

先驗分布是在觀測資料前的參數分布 $p(\theta \mid \alpha )$ 。
先驗分布可能不容易確認，此時可以用傑佛里斯事前分配（英语：Jeffreys prior）在更新較新的觀測值時，先獲得後驗分佈。
取樣分布（英语：sampling distribution）是以觀測資料的條件，其參數的分布 $p(\mathbf {X} \mid \theta )$ 。這也稱為似然函数，尤其是視為是參數的函數時，有時會寫成 $\operatorname {L} (\theta \mid \mathbf {X} )=p(\mathbf {X} \mid \theta )$ 。
邊緣似然率（英语：marginal likelihood）（有時也稱為證據）是觀測資料在參數上的边缘分布 $p(\mathbf {X} \mid \alpha )=\int _{\theta }p(\mathbf {X} \mid \theta )p(\theta \mid \alpha )\operatorname {d} \!\theta$ 。
後驗分布是考慮觀測資料後的參數分布。可以由贝叶斯定理確認，也是贝叶斯推断的核心：

p(\theta \mid \mathbf {X} ,\alpha )={\frac {p(\mathbf {X} \mid \theta )p(\theta \mid \alpha )}{p(\mathbf {X} \mid \alpha )}}\propto p(\mathbf {X} \mid \theta )p(\theta \mid \alpha )

若用文字表示，即為「後驗和先驗及似然率的乘積成正比」，有時也會寫成「後驗 = 先驗 × 似然率，在有證據的情形下」。

應用

電腦應用

贝叶斯推断有在人工智慧及專家系統上應用。自1950年代後期開始，贝叶斯推断技巧就是電腦模式识别技術中的基礎。現在也越來越多將贝叶斯推断和以模擬為基礎的蒙地卡羅方法合併使用的應用，因為一些模雜的模型無法用贝叶斯分析得到解析解，因圖模式結構可以配合一些快速的模擬方式（例如吉布斯抽樣或是其他Metropolis–Hastings演算法）^[2]。因為上述理由，贝叶斯推断在系统发生学研究社群中來越受到重視，許多的應用可以用同時估測许多人口和进化参数。

歷史

「贝叶斯」是指托马斯·贝叶斯（1702–1761），他證明了一個特例（現在知道是贝叶斯定理的特例），不過皮埃尔-西蒙·拉普拉斯（1749–1827）推導了此定理的一般版本，應用在天體力學、醫療統計學、可靠度（英语：Reliability (statistics)）及法学上^[3]。早期的贝叶斯推断是用拉普拉斯不充分理由原則（英语：principle of insufficient reason）所得的均勻先驗，稱為逆向機率（英语：inverse probability）（因為是由觀測值倒推參數的归纳推理，或是從結果倒推到原因^[4]）。在1920年代以後，逆向機率很大程度的被另一群稱為頻率論統計（英语：frequentist statistics）的方式取代^[4]。

二十世紀時，拉普拉斯的概念往下分支為二派，開始出現主觀贝叶斯方法及客觀贝叶斯方法。客觀贝叶斯方法（或是不提供信息的贝叶斯方法）中，統計分析只依照假設的模型、分析的資料^[5]以及給定先驗分布的方式（不同的客觀贝叶斯方法會有不同給定先驗分布的方式）。主觀贝叶斯方法（或是提供信息的贝叶斯方法）中，先驗的規格依信念（也是分析希望要呈現的主張）而定，信念可以由專家整理資訊後總結產生，也可以根據以往的研究等。

1980年代發現了马尔科夫蒙特卡洛方法，讓贝叶斯方法的研究及應用有大幅的發展，除去了許多運算上的問題，也有越來越多人願意參與非標準的複雜問題^[6]。不過雖然贝叶斯方法的研究仍在成長，大部份大學本科的教學仍是以頻率論統計（英语：frequentist statistics）為基礎 ^[7]。不過贝叶斯方法也廣為許多領域接受及應用，例如在机器学习的領域中^[8]。

參考資料

[1]
Douglas Hubbard "How to Measure Anything: Finding the Value of Intangibles in Business" pg. 46, John Wiley & Sons, 2007
[2]
Jim Albert. Bayesian Computation with R, Second edition. New York, Dordrecht, etc.: Springer. 2009. ISBN 978-0-387-92297-3.
[3]
Stigler, Stephen M. Chapter 3. The History of Statistics. Harvard University Press. 1986.
[4]
Fienberg, Stephen E. When did Bayesian Inference Become ‘Bayesian’? (PDF). Bayesian Analysis. 2006, 1 (1): 1–40 [p. 5] [2017-02-02]. doi:10.1214/06-ba101. （原始内容 (PDF)存档于2014-09-10）.
[5]
Bernardo, José-Miguel. Reference analysis. Handbook of statistics 25. 2005: 17–90.
[6]
Wolpert, R. L. A Conversation with James O. Berger. Statistical Science. 2004, 19 (1): 205–218. MR 2082155. doi:10.1214/088342304000000053.
[7]
Bernardo, José M. A Bayesian mathematical statistics primer (PDF). ICOTS-7. 2006 [2017-02-02]. （原始内容 (PDF)存档于2011-11-10）.
[8]
Bishop, C. M. Pattern Recognition and Machine Learning. New York: Springer. 2007. ISBN 0387310738.

相關條目

贝叶斯统计
贝叶斯定理
貝斯分析（英语：Bayesian Analysis (journal)），ISBA期刊
贝叶斯分级模型（英语：Bayesian hierarchical modeling）
贝叶斯概率
歸納概率（英语：Inductive probability）
國際貝斯分析協會（英语：International Society for Bayesian Analysis）（ISBA）
傑佛里斯事前分配（英语：Jeffreys prior）
貝斯結構性時間序列（英语：Bayesian structural time series）（BSTS）
蒙提霍爾問題

Wikiwand - on

Seamless Wikipedia browsing. On steroids.