Loading AI tools
De Wikipedia, la enciclopedia libre
La geometría de la información es una rama de las matemáticas que usa técnicas de la geometría diferencial al campo de la teoría de la probabilidad. Esto se hace tomando las distribuciones de probabilidad, usadas para un determinado modelo estadístico, como los puntos de una variedad de Riemann, que constituyen una variedad estadística. La métrica informacional de Fisher proporciona la métrica de Riemann para dicha variedad.
La geometría de la información alcanzó su madurez como disciplina independiente a través del trabajo de Shun'ichi Amari y otros matemáticos japoneses en los años 1980. El libro de Amari y Nagaoka, Methods of Information Geometry,[1] se considera uno de los trabajos seminales, y además presentan un amplio panorama de desarrollos significativos en la disciplinas que cubren hasta el año 2000. Muchos de esos desarrollos sólo habían estado disponibles previamente en publicaciones en japonés, por lo que su difusión había sido limitada.
La siguiente introducción sigue las líneas generales del libro de Amari y Naoka Methods of Information Geometry.[1]
Se define un n-conjunto como un conjunto V de cardinalidad . Para escoger un elemento v (valor, estado, punto, resultado) de un n-conjunto V, se necesita especificar b-conjuntos (usualmente se considera b=2), si lo único que se tiene en cuenta es la cardinalidad. Es decir, se requieren nates de información para especificar v o equivalentemente, bits de información.
Considerando el subconjunto de apariciones tomados de Error al representar (SVG (MathML puede ser habilitado mediante un plugin de navegador): respuesta no válida («Math extension cannot connect to Restbase.») del servidor «http://localhost:6011/es.wikipedia.org/v1/»:): {\displaystyle V} , hay una forma alternativa de referirse a a través de . Primero, se escoge una aparición , que requiere una información de bits para ser especificada. Entonces, para especificar v, se resta el exceso de información usado para escoger un de entre todos las apariciones de ese tipo relacionadas con , es decir . Así se tiene que es el número de partes que juntas forman una partición de . Así se necesitan bits para escoger una de ellas. De esta manera la cantidad de información (tamaño de una variable, longitud del código, o número de bits) necesaria para especificar un , considerando el número de veces que aparece en un mensaje viene dada por
Finalmente, es la cantidad normalizada de información necesaria para codificar todas las apariciones de un . La longitud de código promediada sobre todos los valores posibles es . Esta magnitud se denomina entropía de una variable aleatoria .
Cuando se observa una determinada variable aleatoria en un cierto contexto, cuyos valores pertenecen a , se parte usualmente de la distribución de probabilidad asociada a la observación de un determinado valor en un determinado contexto, como un mensaje codificado o un montaje experimental.
El contexto mencionado anteriormente, es una situación que se especifica mediante un conjunto de parámetros (frecuentemente usando el razonamiento combinatorio). Los parámetros pueden tener un número arbitrario de dimensiones, y por tanto una observación puede caracterizarse por n parámetros que puede asociarse a un valor de , i.e. el soporte no cambia como función de. Cada determina una distribución de probabilidad para . Nótese al cambiar de contexto o situación, la probabilidad con la que se observa un determinado resultado cambia acorde a los parámetros que definen el contexto. Frecuentemente un conjunto de parámetros se asocia a una determinada familia de distribuciones, por lo que los parámetros en esos casos tienen una interpretación concreta, que constituye un modelo estadístico para el contexto en el que se observa .
Los parámetros son muy diferentes en su naturaleza a los elementos del propio itself, porque no describen , sino el contexto de observación para . Una parametrización de la forma:
donde y , que mezcla diferentes distribuciones , se denomina una distribución mixta, o mixtura de distribuciones o -parametrization. Todas las parametrizaciones de ese tipo están relacionadas a través de una transformación afín . Una parametrización asociada a una regla de transformación de ese tipo se denomina plana.
Una paremetrización plana para es una exponencial o -parametrización, porque los parámetros se encuentran en el exponente de . Existen muchas distribuciones notables, como la distribución normal o la distribución de Poisson, que caen dentro de esta categoría. Estas distribuciones se denominan colectivamente como una "familia exponencial" o -familia. La -variedad de todas las distribuciones de ese tipo, no es una variedad afín, pero sí es una variedad afín. La parametrización para una familia exponencial puede ponerse en relación con la anterior reparametrizando como y extendiendo .
En geometría de información, los métodos de la geometría diferencial se aplican para describir el espacio abstracto de distribuciones de probabilidad posibles para un conjunto de observaciones de . Esto se hace mediante una carta coordenada o un conjunto de ellas que conforma un atlas . Más aún, la distribución de probabilidad debe ser una función diferenciable e invertible de . En este caso, las forman un conjunto de coordenadas de para las -spacio de distribuciones, que de hecho tiene la estructura de variedad diferenciable, y se denota por .
Las derivadas sobre esta variedad se definen como usualmente se hace para otras variedades diferenciables:
con , para una función real sobre . Dadao una función sobre , se puede "geometrizar" tomándola para definir una nueva variedad. Esto se hace definiendo funciones coordenadas sobre esta otra nueva variedad mediante las relaciones:
De esta forma se "geometriza" una función , codificándola en las coordenadas usadas para describir el sistema. Para la inversa es y la variedad resultante de se denomina -representación. La -variedad en sí misma se denomina la -representación.
En geometría diferencial ordinaria, el espacio tangente a una variedad diferenciable en un punto vienen dado por:
En geometría diferencial ordinaria, no existe ningún sistema canónico de coordenadas sobre la variedad; así típicamente, toda discusión debe hacerse con respecto al atlas, sin necesidad explícita de coordenadas, por esa razón los vectores tangentes (y el conjunto de ellos que es el espacio tangente) se definen como operadores que actúan sobre funciones definidas sobre la variedad. Sin embargo, cuando se usan distribuciones de probabilidad , se es posible expresar el espacio tangente directamente como ( -representación) o ( -representación), sin necesidad de especificarlos como operadores.
Diversas funciones definidas sobre la variedad de distribuciones pueden codificarse por un parámetro (que asume tres valores , y ):
Las distribuciones que admiten una representación plana se denominan colectivamente -familia (-, - o -familia) de distribuciones y la correspondiente variedad se denomina -afín. El -vector tangente es .
La historia de la geometría de la información está asociada con trabajos de varios matemáticos, entre los más destacados están:
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.