Geometría de la información

La siguiente introducción sigue las líneas generales del libro de Amari y Naoka Methods of Information Geometry.^[1]

Información y probabilidad

Se define un n-conjunto como un conjunto V de cardinalidad $|V|=n$ . Para escoger un elemento v (valor, estado, punto, resultado) de un n-conjunto V, se necesita especificar $\log _{b}n$ b-conjuntos (usualmente se considera b=2), si lo único que se tiene en cuenta es la cardinalidad. Es decir, se requieren $I(v)=\log n$ nates de información para especificar v o equivalentemente, $I(v)=\log _{2}n$ bits de información.

Considerando el subconjunto de apariciones $C$ tomados de $V$ , hay una forma alternativa de referirse a $v\in V$ a través de $C$ . Primero, se escoge una aparición $c\in C$ , que requiere una información de $I(c)=\log _{2}|C|$ bits para ser especificada. Entonces, para especificar v, se resta el exceso de información usado para escoger un $c$ de entre todos las apariciones de ese tipo relacionadas con $v$ , es decir $I(c_{v})=\log _{2}|C_{v}|$ . Así se tiene que ${\frac {|C|}{|C_{v}|}}$ es el número de $|C_{v}|$ partes que juntas forman una partición de $|C|$ . Así se necesitan $I(v)=\log _{2}{\frac {|C|}{|C_{v}|}}$ bits para escoger una de ellas. De esta manera la cantidad de información (tamaño de una variable, longitud del código, o número de bits) necesaria para especificar un $v$ , considerando el número de veces que aparece en un mensaje viene dada por

$I(v)=-\log _{2}p(v)$

Finalmente, $p(v)I(v)$ es la cantidad normalizada de información necesaria para codificar todas las apariciones de un $v$ . La longitud de código promediada sobre todos los valores posibles es $H(V)=-\sum p(v)\log p(v)$ . Esta magnitud $H(V)$ se denomina entropía de una variable aleatoria $V$ .

Parámetros de un modelo estadístico

Cuando se observa una determinada variable aleatoria en un cierto contexto, cuyos valores pertenecen a $V$ , se parte usualmente de la distribución de probabilidad asociada a la observación de un determinado valor en un determinado contexto, como un mensaje codificado o un montaje experimental.

El contexto mencionado anteriormente, es una situación que se especifica mediante un conjunto de parámetros (frecuentemente usando el razonamiento combinatorio). Los parámetros pueden tener un número arbitrario de dimensiones, y por tanto una observación puede caracterizarse por n parámetros $\xi =[\xi ^{i}]\in \mathbb {R} ^{n}$ que puede asociarse a un valor de $V$ , i.e. el soporte ${\text{supp}}(V)$ no cambia como función de. Cada $\xi$ determina una distribución de probabilidad para $V$ . Nótese al cambiar de contexto o situación, la probabilidad con la que se observa un determinado resultado cambia acorde a los parámetros que definen el contexto. Frecuentemente un conjunto de parámetros se asocia a una determinada familia de distribuciones, por lo que los parámetros en esos casos tienen una interpretación concreta, que constituye un modelo estadístico para el contexto en el que se observa $V$ .

Los parámetros son muy diferentes en su naturaleza a los elementos del propio $V$ itself, porque no describen $V$ , sino el contexto de observación para $V$ . Una parametrización de la forma:

$p(v)=\sum \xi ^{i}p_{i}(v)=\xi ^{i}p_{i}$

donde $\sum p_{i}(v_{j})=1$ y $\sum \xi ^{i}=1$ , que mezcla diferentes distribuciones $p_{i}(v)$ , se denomina una distribución mixta, o mixtura de distribuciones o $m$ -parametrization. Todas las parametrizaciones de ese tipo están relacionadas a través de una transformación afín $\rho =A\xi +B$ . Una parametrización asociada a una regla de transformación de ese tipo se denomina plana.

Una paremetrización plana para $I(v)=\log p(v)=E(v)+\sum \xi ^{i}F_{i}(v)$ es una exponencial o $e$ -parametrización, porque los parámetros se encuentran en el exponente de $p(v)$ . Existen muchas distribuciones notables, como la distribución normal o la distribución de Poisson, que caen dentro de esta categoría. Estas distribuciones se denominan colectivamente como una "familia exponencial" o $e$ -familia. La $p$ -variedad de todas las distribuciones de ese tipo, no es una variedad afín, pero $\log p$ sí es una variedad afín. La parametrización $\log p(v)=E(v)+\sum \xi ^{i}F_{i}(v)-\psi (\xi )$ para una familia exponencial puede ponerse en relación con la anterior reparametrizando como $\psi (\xi )$ y extendiendo $[F_{i}]\rightarrow [F_{i},1]$ .

Geometría diferencial aplicada a las probabilidades

En geometría de información, los métodos de la geometría diferencial se aplican para describir el espacio abstracto de distribuciones de probabilidad posibles para un conjunto de observaciones de $V$ . Esto se hace mediante una carta coordenada o un conjunto de ellas que conforma un atlas $\xi \in \mathbb {R} ^{n}$ . Más aún, la distribución de probabilidad $p(v;\xi )$ debe ser una función diferenciable e invertible de $\xi$ . En este caso, las $[\xi ^{i}]$ forman un conjunto de coordenadas de para las $p(v;\xi )$ -spacio de distribuciones, que de hecho tiene la estructura de variedad diferenciable, y se denota por ${\mathcal {M}}$ .

Las derivadas sobre esta variedad se definen como usualmente se hace para otras variedades diferenciables:

$\partial _{i}f={\frac {\partial f}{\partial \xi ^{i}}}:={\frac {\partial {\bar {f}}}{\partial \xi ^{i}}}$

con ${\bar {f}}=f\circ \xi ^{-1}$ , para $f\in {\mathcal {F}}(M)$ una función real sobre ${\mathcal {M}}$ . Dadao una función $f$ sobre $M$ , se puede "geometrizar" tomándola para definir una nueva variedad. Esto se hace definiendo funciones coordenadas sobre esta otra nueva variedad mediante las relaciones:

$\phi =(f\circ \xi ^{-1})^{-1}=\xi \circ f^{-1}$

De esta forma se "geometriza" una función $f$ , codificándola en las coordenadas usadas para describir el sistema. Para $f=\log$ la inversa es $f^{-1}=\exp$ y la variedad resultante de $\log p$ se denomina $e$ -representación. La $p$ -variedad en sí misma se denomina la $m$ -representación.

Espacio tangente

Artículo principal: Espacio tangente

En geometría diferencial ordinaria, el espacio tangente a una variedad diferenciable ${\mathcal {M}}$ en un punto $q$ vienen dado por:

$T_{q}M=\left\{X^{i}\partial _{i}{\Big |}X\in \mathbb {R} ^{n},\partial _{i}={\frac {\partial }{\partial \xi ^{i}}}\right\}$

En geometría diferencial ordinaria, no existe ningún sistema canónico de coordenadas sobre la variedad; así típicamente, toda discusión debe hacerse con respecto al atlas, sin necesidad explícita de coordenadas, por esa razón los vectores tangentes (y el conjunto de ellos que es el espacio tangente) se definen como operadores que actúan sobre funciones definidas sobre la variedad. Sin embargo, cuando se usan distribuciones de probabilidad $p(v;\xi )$ , se es posible expresar el espacio tangente directamente como $X^{i}\partial _{i}p$ ( $m$ -representación) o $X^{i}\partial _{i}\log p$ ( $e$ -representación), sin necesidad de especificarlos como operadores.

Representación alfa

Diversas funciones definidas sobre la variedad de distribuciones $p$ pueden codificarse por un parámetro $\alpha$ (que asume tres valores $1$ , $0$ y $-1$ ):

mezcla o $m$ -representación ( $\alpha =-1$ ):

$\ell ^{(-1)}={\frac {2}{1-\alpha }}p^{\frac {1-\alpha }{2}}=p$

exponencial o $e$ -representación ( $\alpha =1$ ):

$\ell =\ell ^{(1)}=\log p(X^{(e)}={\frac {1}{p}}X^{(m)}$

$0$ -representación ( $\alpha =0$ ):

$\ell ^{(0)}={\frac {2}{1-\alpha }}p^{\frac {1-\alpha }{2}}=2{\sqrt {p}},\quad X^{(0)}={\frac {1}{\sqrt {p}}}X^{(m)}$

Las distribuciones que admiten una representación plana $\ell ^{\alpha }(v;\xi )=E(v)+\xi ^{i}F_{i}(v)$ se denominan colectivamente $\alpha$ -familia ( $m$ -, $e$ - o $0$ -familia) de distribuciones y la correspondiente variedad se denomina $\alpha$ -afín. El $\alpha$ -vector tangente es $X^{(\alpha )}=X^{i}\partial _{i}\ell ^{\alpha }$ .

Geometría de la información

Introducción

Información y probabilidad

Parámetros de un modelo estadístico

Geometría diferencial aplicada a las probabilidades

Espacio tangente

Representación alfa

Historia

Véase también

Referencias

Bibliografía

Enlaces externos

Wikiwand - on