Remove ads
機率分布 来自维基百科,自由的百科全书
在機率論和統計學中,二項式分布(英語:binomial distribution)是一種離散機率分佈,描述在進行獨立隨機試驗時,每次試驗都有相同機率「成功」的情況下,獲得成功的總次數。擲硬幣十次出現五次正面的機率、產品合格率時抽出一百件樣本沒有發現一件次品的機率等等,都可以由二項式分布給出。
只有「成功」和「失敗」兩種可能結果,每次重複時成功機率不變的獨立隨機試驗稱作伯努利試驗,例如上述的擲硬幣出現正面或反面、對產品進行抽樣檢查時抽到正品或次品。伯努利試驗作為理論模型,其前提在現實中無法完全得到滿足,比如生產線會磨損,因此每件產品合格的機率並非固定[1]。儘管如此,二項式分布給出的機率通常足以用於提供有用的推斷;即使在已知前提沒有滿足的場合,二項式分布也能用於參考和比較。二項式分布的應用出現在遺傳學、質量控制等領域之中。[2]
進行次獨立伯努利試驗的結果可以由個字母表示,例如用表示成功,表示失敗,則
表示五次試驗中第一、二、四次的結果為成功,其餘為失敗。設每次試驗成功的機率為,失敗的機率為。因為試驗相互獨立,每一種排列個、個的方式對應的機率為。[1]
而每種對個、個的排列都可理解為從個位置中選出個作為字母的位置的方法,這種方法的數量即為。與每種排列方式對應的機率相乘,便得到定義中的機率
二項式分布是最早得到研究的機率分佈之一[6]。丹麥統計學家安德斯·哈爾德認為其歷史可以追溯至布萊茲·帕斯卡與皮埃爾·德·費馬於1654年對點數分配問題的討論:兩名玩家贏得每局遊戲的機會相同,贏得一定局數的勝者可獲得獎金,但比賽僅進行了數局,尚未分出勝負就被迫中斷,則獎金該如何分配?帕斯卡認為,獎金的分配應當基於玩家距離勝利所差的局數:若一名玩家還需局獲勝,另一名玩家還需局獲勝,則應考慮在局比賽的種結果中,兩名玩家分別在多少種情況中獲勝。兩人的討論限於這一問題本身,並未推導出二項式分布的機率,但這一解法可被視作基於參數的二項式分布。[7]
對二項式分布機率的推導為雅各布·伯努利於《猜度術》中作出。該著作在他去世後,於1713年得到出版,被視作機率論的奠基性作品。伯努利還在其中首次給出了弱大數法則的嚴格證明[8][9]。對二項式分布的正態近似則是由亞伯拉罕·狄默夫發現,這一工作於1733年完成,於1738年出版在其著作《機遇論》的第二版中。[10]
特徵函數為
參數的二項式分布稱作伯努利分佈[3]。多項分佈是二項式分布的拓展,描述重複進行不限於兩種結果、可能有多種可能結果的隨機試驗時的機率[12]。二項式分布本身是超幾何分佈的極限形式。[13]
若兩個隨機變量獨立,分別服從參數為和的二項式分布,則即是在次獨立伯努利試驗中取得成功的次數,所以服從參數為的二項式分布。這一結論亦可通過將兩者的機率母函數相乘而得出。在條件之下,隨機變量的條件機率分佈是參數為的超幾何分佈。[14]
計算和的比值可以得到
因此,當時,隨增加而上升;當時,隨增加而下降。故二項式分布的眾數為的下取整。若本身是整數,則和均是眾數。若,則眾數為。[15]
二項式分布的中位數位於的上下取整之間,即;若為整數,則中位數。中位數和期望值之間的差滿足
若或,則該上界可進一步縮減為
二項式分布的累積分佈函數和尾機率可以用正則化不完全貝塔函數表示為
二項式分布的階原動差滿足
其中表示第二類士他令數。具體而言,
其低階主動差為
標準二項式分布
在時趨近於標準正態分佈。這一結果稱作狄默夫-拉普拉斯定理,為中心極限定理的特殊形式。基於這一定理可以得到
正態分佈為連續機率分佈,在近似二項式分布這類離散機率分佈時,可將端點向外偏移得到
從而提升近似的準確性,這種技巧稱作連續性校正[21]。何時能採用這一近似依賴於使用經驗法則,例如要求,或是在時要求、在時要求。[22][23]
當,而保持不變時,二項式分布趨近於參數為的泊松分佈。以此為基礎可以得到
二項式分布與其泊松近似之間的絕對誤差存在上界。若隨機變量服從參數為的二項式分布,隨機變量服從參數為的泊松分佈,則
通常參數為已知。假設隨機變量服從二項式分布,其參數未知。若觀測到的值為,採用動差估計和最大似然估計對參數的估計量均為,這一估計量為無偏的。[26]
參數的貝氏估計量取決於使用的先驗分布。若使用連續型均勻分佈作為先驗分布,即假設和之間任意等長的區間包含的機率都相同,則後驗均值估計量為
這被稱作拉普拉斯–貝氏估計量,曾被皮埃爾-西蒙·拉普拉斯用於估計在太陽連續升起天之後,太陽明天還會升起的機率。由於人類知道太陽在過去五千年,即1,826,213天都正常升起,拉普拉斯願意以1,826,214比1的賠率賭太陽明天繼續升起。[27]
若使用參數為的貝塔分佈作為先驗分布,則後驗均值估計量為
若要對參數以區間形式給出估計,通過求解
所得的區間為一個置信水平近似為的置信區間,稱作克洛珀-皮爾森區間(Clopper-Pearson interval)。[29]
正態分佈可以用於推導近似的置信區間。若用表示標準正態分佈的第分位數,即,則區間兩端的近似值為
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.