Distribución de probabilidad

En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable, la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los sucesos y cada uno de los sucesos es el rango de valores de la variable aleatoria. También puede decirse que tiene una relación estrecha con las distribuciones de frecuencia. De hecho, una distribución de probabilidades puede comprenderse como una frecuencia teórica, ya que describe cómo se espera que varíen los resultados.

La distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada x real es la probabilidad de que la variable aleatoria sea menor o igual que x.

Variable aleatoria: Es aquella cuyo valor es el resultado de un evento aleatorio. Lo que quiere decir que son los resultados que se presentan al azar en cualquier evento o experimento.
Variable aleatoria discreta: Es aquella que solo toma ciertos valores (frecuentemente enteros) y que resulta principalmente del conteo realizado.
Variable aleatoria continua: Es aquella que resulta generalmente de la medición y puede tomar cualquier valor dentro de un intervalo dado.^[1]

Esta división se realiza dependiendo del tipo de variable a estudiar. Las cuatro principales (de las que nacen todas las demás) son:

a) Si la variable es una variable discreta (números enteros), corresponderá una distribución discreta, de las cuales existen:

Distribución binomial (eventos independientes).
Distribución de Poisson (eventos independientes).
Distribución hipergeométrica (eventos dependientes).

b) Si la variable es continua (números reales), la distribución que se generará será una distribución continua. Ejemplos de ellas son:

Además, se puede utilizar la «distribución de Poisson como una aproximación de la distribución binomial» cuando la muestra por estudiar es grande y la probabilidad de éxito es pequeña. De la combinación de los dos tipos de distribuciones anteriores (a y b), surge una conocida como «distribución normal como una aproximación de la distribución binomial y de Poisson».

Artículo principal: Función de distribución

Dada una variable aleatoria $\scriptstyle X$ , su función de distribución, $\scriptstyle F_{X}(x)$ , es

$F_{X}(x)=\mathrm {Prob} (X\leq x)=\mu _{P}\{\omega \in \Omega |X(\omega )\leq x\}$

Por simplicidad, cuando no hay lugar a confusión, suele omitirse el subíndice $\scriptstyle X$ y se escribe, simplemente, $\scriptstyle F(x)$ . Donde en la fórmula anterior:

\mathrm {Prob} \,

, es la probabilidad definida sobre un espacio de probabilidad y una medida unitaria sobre el espacio muestral.

\mu _{P}\,

es la medida sobre la σ-álgebra de conjuntos asociada al espacio de probabilidad.

\Omega \,

es el espacio muestral, o conjunto de todos los posibles sucesos aleatorios, sobre el que se define el espacio de probabilidad en cuestión.

X:\Omega \to \mathbb {R}

es la variable aleatoria en cuestión, es decir, una función definida sobre el espacio muestral a los números reales.

Propiedades

Como consecuencia casi inmediata de la definición, la función de distribución:

Es una función continua por la derecha.
Es una función monótona no decreciente.

Además, cumple

$\lim _{x\to -\infty }F(x)=0,\qquad \lim _{x\to +\infty }F(x)=1$

Para dos números reales cualesquiera $a$ y $b$ tal que $(a<b)$ , los sucesos $(X\leq a)$ y $(a<X\leq b)$ son mutuamente excluyentes y su unión es el suceso $(X\leq b)$ , por lo que tenemos entonces que:

P(X\leq b)=P(X\leq a)+P(a<X\leq b)

P(a<X\leq b)=P(X\leq b)-P(X\leq a)

y finalmente

P(a<X\leq b)=F(b)-F(a)

Por lo tanto una vez conocida la función de distribución $F(x)$ para todos los valores de la variable aleatoria $x$ conoceremos completamente la distribución de probabilidad de la variable.

Para realizar cálculos es más cómodo conocer la distribución de probabilidad, y sin embargo para ver una representación gráfica de la probabilidad es más práctico el uso de la función de densidad.

Se denomina distribución de variable discreta a aquella cuya función de probabilidad solo toma valores positivos en un conjunto de valores de $X$ finito o infinito numerable. A dicha función se le llama función de masa de probabilidad. En este caso la distribución de probabilidad es la suma de la función de masa, por lo que tenemos entonces que:

F(x)=P(X\leq x)=\sum _{k=x}^{-\infty }f(k)~

Y, tal como corresponde a la definición de distribución de probabilidad, esta expresión representa la suma de todas las probabilidades desde $-\infty$ hasta el valor $x$ .

Tipos de distribuciones de variable discreta

Definidas sobre un dominio finito

La distribución binomial, que describe el número de aciertos en una serie de n experimentos independientes con posibles resultados binarios, es decir, de «sí» o «no», todos ellos con probabilidad de acierto p y probabilidad de fallo q = 1 − p.
La distribución de Bernoulli, la clásica binomial, que toma valores «1», con probabilidad p, o «0», con probabilidad q = 1 − p (ensayo de Bernoulli).
La distribución de Rademacher, que toma valores «1» o «-1» con probabilidad 1/2 cada uno.
La distribución beta-binomial, que describe el número de aciertos en una serie de n experimentos independientes con posibles resultados «sí» o «no», cada uno de ellos con una probabilidad de acierto variable definida por una beta.
La distribución degenerada en x₀, en la que X toma el valor x₀ con probabilidad 1. A pesar de que no parece una variable aleatoria, la distribución satisface todos los requisitos para ser considerada como tal.
La distribución uniforme discreta, que recoge un conjunto finito de valores que son resultan ser todos igualmente probables. Esta distribución describe, por ejemplo, el comportamiento aleatorio de una moneda, un dado, o una ruleta de casino equilibrados (sin sesgo).
La distribución hipergeométrica, que mide la probabilidad de obtener x (0 ≤ x ≤ d) elementos de una determinada clase formada por d elementos pertenecientes a una población de N elementos, tomando una muestra de n elementos de la población sin reemplazo.
La distribución hipergeométrica no central de Fisher.
La distribución hipergeométrica no central de Wallenius.
La ley de Benford, que describe la frecuencia del primer dígito de un conjunto de números en notación decimal.

Definidas sobre un dominio infinito

La distribución binomial negativa o distribución de Pascal, que describe el número de ensayos de Bernoulli independientes necesarios para conseguir n aciertos, dada una probabilidad individual de éxito p constante.
La distribución geométrica, que describe el número de intentos necesarios hasta conseguir el primer acierto.
La distribución beta-binomial negativa, que describe el número de experimentos del tipo «sí/no» necesarios para conseguir n aciertos, cuando la probabilidad de éxito de cada uno de los intentos está distribuida de acuerdo con una beta.
La distribución binomial negativa extendida.
La distribución de Boltzmann, importante en mecánica estadística, que describe la ocupación de los niveles de energía discretos en un sistema en equilibrio térmico. Varios casos especiales son:
- La distribución de Gibbs.
- La distribución de Maxwell-Boltzmann.
La distribución elíptica asimétrica.
La distribución fractal parabólica.
La distribución hipergeométrica extendida.
La distribución logarítmica.
La distribución logarítmica generalizada.
La distribución de Poisson, que describe el número de eventos individuales que ocurren en un periodo de tiempo. Existen diversas variantes como la distribución de Poisson desplazada, la hiperdistribución de Poisson, la distribución binomial de Poisson y la distribución de Conway-Maxwell-Poisson, entre otras.
La distribución de Polya-Eggenberger.
La distribución Skellam, que describe la diferencia de dos variables aleatorias independientes con distribuciones de Poisson de distinto valor esperado.
La distribución de Yule-Simon.
La distribución zeta, que utiliza la función zeta de Riemman para asignar una probabilidad a cada número natural.
La ley de Zipf, que describe la frecuencia de utilización de las palabras de una lengua.
La ley de Zipf-Mandelbrot es una versión más precisa de la anterior.

Se denomina variable continua a aquella que puede tomar cualquiera de los infinitos valores existentes dentro de un intervalo. En el caso de variable continua la distribución de probabilidad es la integral de la función de densidad, por lo que tenemos entonces que:

F(x)=P(X\leq x)=\int _{-\infty }^{x}f(t)\,dt

Tipos de distribuciones de variable continua

Distribuciones definidas en un intervalo acotado

La distribución arcoseno, definida en el intervalo [a,b].
La distribución beta, definida en el intervalo [0, 1], que es útil a la hora de estimar probabilidades.
La distribución del coseno alzado, sobre el intervalo [μ-s,μ+s].
La distribución degenerada en x₀, en la que X toma el valor x₀ con probabilidad 1. Puede ser considerada tanto una distribución discreta como continua.
La distribución de Irwin-Hall o distribución de la suma uniforme, es la distribución correspondiente a la suma de n variables aleatorias i. i. d. ~ U(0, 1).
La distribución de Kent, definida sobre la superficie de una esfera unitaria.
La distribución de Kumaraswamy, tan versátil como la beta, pero con FDC y FDP más simples.
La distribución logarítmica continua.
La distribución logit-normal en (0, 1).
La distribución normal truncada, sobre el intervalo [a, b].
La distribución recíproca, un tipo de distribución inversa.
La distribución triangular, definida en [a, b], de la cual un caso particular es la distribución de la suma de dos variables independientes uniformemente distribuidas (la convolución de dos distribuciones uniformes).
La distribución uniforme continua definida en el intervalo cerrado [a, b], en el que la densidad de probabilidad es constante.
La distribución rectangular es el caso particular en el intervalo [-1/2, 1/2].
La distribución U-cuadrática, definida en [a, b], utilizada para modelar procesos bimodales simétricos.
La distribución von Mises, también llamada distribución normal circular o distribución Tikhonov, definida sobre el círculo unitario.
La distribución von Mises-Fisher, generalización de la anterior a una esfera N-dimensional.
La distribución semicircular de Wigner, importante en el estudio de las matrices aleatorias.

Definidas en un intervalo semi-infinito, usualmente [0,∞)

La distribución beta prima.
La distribución de Birnbaum-Saunders, también llamada distribución de resistencia a la fatiga de materiales, utilizada para modelar tiempos de fallo.
La distribución chi.
La distribución chi no central.
La distribución χ² o distribución de Pearson, que es la suma de cuadrados de n variables aleatorias independientes gaussianas. Es un caso especial de la gamma, utilizada en problemas de bondad de ajuste.
La distribución chi-cuadrada inversa.
La distribución chi-cuadrada inversa escalada.
La distribución chi-cuadrada no central.
La distribución de Dagum.
La distribución exponencial, que describe el tiempo entre dos eventos consecutivos en un proceso sin memoria.
La distribución F, que es la razón entre dos variables $\mathbf {\chi } _{n}^{2}$ y $\mathbf {\chi } _{m}^{2}$ independientes. Se utiliza, entre otros usos, para realizar análisis de varianza por medio del test F.
La distribución F no central.
La distribución de Fréchet.
La distribución gamma, que describe el tiempo necesario para que sucedan n repeticiones de un evento en un proceso sin memoria.
La distribución de Erlang, caso especial de la gamma con un parámetro k entero, desarrollada para predecir tiempos de espera en sistemas de líneas de espera.
La distribución gamma inversa.
La distribución gamma-Gompertz, que se utiliza en modelos para estimar la esperanza de vida.
La distribución de Gompertz.
La distribución de Gompertz desplazada.
La distribución de Gumbel tipo-2.
La distribución de Lévy.

Distribuciones en las que el logaritmo de una variable aleatoria está distribuido conforme a una distribución estándar:

La distribución log-Cauchy.
La distribución log-gamma.
La distribución log-Laplace.
La distribución log-logistic.
La distribución log-normal.
La distribución de Mittag-Leffler.
La distribución de Nakagami.
Variantes de la distribución normal o de Gauss:
La distribución normal pleglada.
La distribución semi normal.
La distribución de Gauss inversa, también conocida como distribución de Wald.
La distribución de Pareto y la distribución de Pareto generalizada.
La distribución tipo III de Pearson.
La distribución por fases bi-exponencial, comúnmente usada en farmacocinética.
La distribución por fases bi-Weibull.
La distribución de Rayleigh.
La distribución de mezcla de Rayleigh.
La distribución de Rice.
La distribución T² de Hotelling.
La distribución de Weibull o distribución de Rosin-Rammler, para describir la distribución de tamaños de determinadas partículas.
La distribución Z de Fisher.

Definidas en la recta real completa

La distribución de Behrens-Fisher, que surge en el problema de Behrens-Fisher.
La distribución de Cauchy, un ejemplo de distribución que no tiene expectativa ni varianza. En física se le llama función de Lorentz, y se asocia a varios procesos.
La distribución de Chernoff.
La distribución estable o distribución asimétrica alfa-estable de Lévy, es una familia de distribuciones usadas e multitud de campos. Las distribuciones normal, de Cauchy, de Holtsmark, de Landau y de Lévy pertenecen a esta familia.
La distribución estable geométrica.
La distribución de Fisher-Tippett o distribución del valor extremo generalizada.
La distribución de Gumbel o log-Weibull, caso especial de la Fisher-Tippett.
La distribución de Gumbel tipo-1.
La distribución de Holtsmark, ejemplo de una distribución con expectativa finita pero varianza infinita.
La distribución hiperbólica.
La distribución secante hiperbólica.
La distribución SU de Johnson.
La distribución de Landau.
La distribución de Laplace.
La distribución de Linnik.
La distribución logística, descrita por la función logística.
La distribución logística generalizada.
La distribución map-Airy.
La distribución normal, también llamada distribución gaussiana o campana de Gauss. Está muy presente en multitud de fenómenos naturales debido al teorema del límite central: toda variable aleatoria que se pueda modelar como la suma de varias variables independientes e idénticamente distribuidas con expectativa y varianza finita, es aproximadamente normal.
La distribución normal generalizada.
La distribución normal asimétrica.
La distribución gaussiana exponencialmente modificada, la convolución de una normal con una exponencial.
La distribución normal-exponencial-gamma.
La distribución gaussiana menos exponencial es la convolución de una distribución normal con una distribución exponencial (negativa).
La distribución de Voigt, o perfil de Voigt, es la convolución de una distribución normal y una Cauchy. Se utiliza principalmente en espectroscopía.
La distribución tipo IV de Pearson.
La distribución t de Student, útil para estimar medias desconocidas de una población gaussiana.
La distribución t no central.

Definidas en un dominio variable

La distribución de Fisher-Tippett o distribución del valor extremo generalizada, puede estar definida en la recta real completa o en un intervalo acotado, dependiendo de sus parámetros.
La distribución de Pareto generalizada está definida en un dominio que puede estar acotado inferiormente o acotado por ambos extremos.
La distribución lambda de Tukey, puede estar definida en la recta real completa o en un intervalo acotado, dependiendo de sus parámetros.
La distribución de Wakeby.

Distribuciones mixtas discreta/continua

La distribución gaussiana rectificada, es una distribución normal en la que los valores negativos son sustituidos por un valor discreto en cero.

Distribuciones multivariable

La distribución de Dirichlet, generalización de la distribución beta.
La fórmula de muestreo de Ewens o distribución multivariante de Ewens, es la distribución de probabilidad del conjunto de todas las particiones de un entero n, utilizada en el análisis genético de poblaciones.
El modelo de Balding-Nichols, utilizado en el análisis genético de poblaciones.
La distribución multinomial, generalización de la distribución binomial.
La distribución normal multivariante, generalización de la distribución normal.
La distribución multinomial negativa, generalización de la distribución binomial negativa.
La distribución log-gamma generalizada multivariante.