在概率论和统计学中,耿贝尔分布(Gumbel分布,也称为I 型广义极值分布)用于对各种分布的多个样本的最大值(或最小值)的分布进行建模。
如果有过去十年的水位最大值列表,则此分布可用于表示特定年份河流最高水位的分布。它有助于预测发生极端地震、洪水或其他自然灾害的可能性。 耿贝尔分布表示最大值分布的潜在适用性与极值理论有关,这表明如果基础样本数据的分布是正态或指数类型,它可能是有用的。本文使用耿贝尔分布对最大值的分布进行建模。要对最小值建模,请使用原始值的负值。
耿贝尔分布是广义极值分布(也称为 Fisher-Tippett 分布)的一个特例。它也称为对数Weibull 分布和双指数分布(该术语有时也用于指代拉普拉斯分布)。它与Gompertz分布有关:在原点附近,并限制在正半线上时,就得到了 Gompertz 函数。
在多项式logistic回归模型的潜变量公式中——在离散选择法理论中很常见——潜在变量的误差服从 Gumbel 分布。这很有用,因为两个耿贝尔分布的随机变量的差服从logistic分布。
耿贝尔分布以Emil Julius Gumbel (1891 – 1966) 的名字命名,来自描述该分布的原始论文。 [1] [2]
耿贝尔分布的累积分布函数为
- 如果具有耿贝尔分布,则Y= − X的条件分布在Y为正的情况下,或等效地在X为负的情况下具有Gompertz分布。 Y的 cdf G与X的 cdf F相关,公式如下要求y > 0。因此,两者概率密度函数相关: : Gompertz 密度与反射的 Gumbel 密度成正比,仅限于正半线。 [4]
- 如果X是均值为 1 的指数分布变量,则− log( X ) 服从标准 Gumbel 分布。
- 如果和是独立的,那么 (见Logistic分布)。
- 如果是独立的,那么 。注意 。更一般地,独立 Gumbel 随机变量的线性组合的分布可以用 GNIG 和 GIG 分布来近似。 [5]
与广义多变量对数伽马分布相关的理论提供了耿贝尔分布的多变量版本。
在机器学习中,耿贝尔分布有时用于从分类分布中生成样本。这种技术称为“Gumbel-max技巧”,是“重参数化技巧”的一个特例。 [12]
具体而言,令非负且不全为零,并且让是Gumbel(0, 1)的独立样本,则因此,
等价地,给定任何 ,我们可以从它的玻尔兹曼分布中采样:相关等式包括: [13]
- 如果 , 那么 。
- 。
- 。也就是说,Gumbel 分布是一个最大稳定分布族。
- 。
- 2型Gumbel分布
- 极值理论
- 广义极值分布
- Fisher-Tippett-Gnedenko定理
- 埃米尔·朱利叶斯·冈贝尔
Gumbel E.J. (1941). "The return period of flood flows". The Annals of Mathematical Statistics, 12, 163–190.
Erdös, Paul; Lehner, Joseph. The distribution of the number of summands in the partitions of a positive integer. Duke Mathematical Journal. 1941, 8 (2): 335. doi:10.1215/S0012-7094-41-00826-8.
Balog, Matej; Tripuraneni, Nilesh; Ghahramani, Zoubin; Weller, Adrian. Lost Relatives of the Gumbel Trick. International Conference on Machine Learning (PMLR). 2017-07-17: 371–379 [2023-01-21]. (原始内容存档于2023-01-21) (英语).