Remove ads
機率分布 来自维基百科,自由的百科全书
在概率论和统计学中,二项分布(英语:binomial distribution)是一种离散概率分布,描述在进行独立随机试验时,每次试验都有相同概率“成功”的情况下,获得成功的总次数。掷硬币十次出现五次正面的概率、产品合格率时抽出一百件样本没有发现一件次品的概率等等,都可以由二项分布给出。
只有“成功”和“失败”两种可能结果,每次重复时成功概率不变的独立随机试验称作伯努利试验,例如上述的掷硬币出现正面或反面、对产品进行抽样检查时抽到正品或次品。伯努利试验作为理论模型,其前提在现实中无法完全得到满足,比如生产线会磨损,因此每件产品合格的概率并非固定[1]。尽管如此,二项分布给出的概率通常足以用于提供有用的推断;即使在已知前提没有满足的场合,二项分布也能用于参考和比较。二项分布的应用出现在遗传学、质量控制等领域之中。[2]
进行次独立伯努利试验的结果可以由个字母表示,例如用表示成功,表示失败,则
表示五次试验中第一、二、四次的结果为成功,其余为失败。设每次试验成功的概率为,失败的概率为。因为试验相互独立,每一种排列个、个的方式对应的概率为。[1]
而每种对个、个的排列都可理解为从个位置中选出个作为字母的位置的方法,这种方法的数量即为。与每种排列方式对应的概率相乘,便得到定义中的概率
二项分布是最早得到研究的概率分布之一[6]。丹麦统计学家安德斯·哈尔德认为其历史可以追溯至布莱兹·帕斯卡与皮埃尔·德·费马于1654年对点数分配问题的讨论:两名玩家赢得每局游戏的机会相同,赢得一定局数的胜者可获得奖金,但比赛仅进行了数局,尚未分出胜负就被迫中断,则奖金该如何分配?帕斯卡认为,奖金的分配应当基于玩家距离胜利所差的局数:若一名玩家还需局获胜,另一名玩家还需局获胜,则应考虑在局比赛的种结果中,两名玩家分别在多少种情况中获胜。两人的讨论限于这一问题本身,并未推导出二项分布的概率,但这一解法可被视作基于参数的二项分布。[7]
对二项分布概率的推导为雅各布·伯努利于《猜度术》中作出。该著作在他去世后,于1713年得到出版,被视作概率论的奠基性作品。伯努利还在其中首次给出了弱大数定律的严格证明[8][9]。对二项分布的正态近似则是由亚伯拉罕·棣莫弗发现,这一工作于1733年完成,于1738年出版在其著作《机遇论》的第二版中。[10]
矩母函数为
特征函数为
参数的二项分布称作伯努利分布[3]。多项分布是二项分布的拓展,描述重复进行不限于两种结果、可能有多种可能结果的随机试验时的概率[12]。二项分布本身是超几何分布的极限形式。[13]
若两个随机变量独立,分别服从参数为和的二项分布,则即是在次独立伯努利试验中取得成功的次数,所以服从参数为的二项分布。这一结论亦可通过将两者的概率母函数相乘而得出。在条件之下,随机变量的条件概率分布是参数为的超几何分布。[14]
计算和的比值可以得到
因此,当时,随增加而上升;当时,随增加而下降。故二项分布的众数为的下取整。若本身是整数,则和均是众数。若,则众数为。[15]
二项分布的中位数位于的上下取整之间,即;若为整数,则中位数。中位数和期望之间的差满足
若或,则该上界可进一步缩减为
二项分布的累积分布函数和尾概率可以用正则化不完全贝塔函数表示为
二项分布的阶原点矩满足
其中表示第二类斯特林数。具体而言,
其低阶中心矩为
标准二项分布
在时趋近于标准正态分布。这一结果称作棣莫弗-拉普拉斯定理,为中心极限定理的特殊形式。基于这一定理可以得到
正态分布为连续概率分布,在近似二项分布这类离散概率分布时,可将端点向外偏移得到
从而提升近似的准确性,这种技巧称作连续性校正[21]。何时能采用这一近似依赖于使用经验法则,例如要求,或是在时要求、在时要求。[22][23]
当,而保持不变时,二项分布趋近于参数为的泊松分布。以此为基础可以得到
二项分布与其泊松近似之间的绝对误差存在上界。若随机变量服从参数为的二项分布,随机变量服从参数为的泊松分布,则
通常参数为已知。假设随机变量服从二项分布,其参数未知。若观测到的值为,采用矩估计和最大似然估计对参数的估计量均为,这一估计量为无偏的。[26]
参数的贝叶斯估计量取决于使用的先验分布。若使用连续型均匀分布作为先验分布,即假设和之间任意等长的区间包含的概率都相同,则后验均值估计量为
这被称作拉普拉斯–贝叶斯估计量,曾被皮埃尔-西蒙·拉普拉斯用于估计在太阳连续升起天之后,太阳明天还会升起的概率。由于人类知道太阳在过去五千年,即1,826,213天都正常升起,拉普拉斯愿意以1,826,214比1的赔率赌太阳明天继续升起。[27]
若使用参数为的贝塔分布作为先验分布,则后验均值估计量为
若要对参数以区间形式给出估计,通过求解
所得的区间为一个置信水平近似为的置信区间,称作克洛珀-皮尔逊区间(Clopper-Pearson interval)。[29]
正态分布可以用于推导近似的置信区间。若用表示标准正态分布的第分位数,即,则区间两端的近似值为
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.