Núcleo definido positivo

En teoría de operadores, una rama de las matemáticas, un núcleo definido positivo es una generalización del concepto de función definida positiva o de matriz definida positiva. Fue introducido por primera vez por James Mercer a principios del siglo XX, en el contexto de la resolución de ecuaciones con integrales. Desde entonces, las funciones definidas positivas y sus diversos análogos y generalizaciones han surgido en diversas partes de las matemáticas. Aparecen naturalmente en el análisis de Fourier, en la teoría de la probabilidad, en la teoría de operadores, en la teoría de funciones complejas, en problemas de momentos, en ecuaciones integrales, problemas de condiciones de contorno para ecuaciones en derivadas parciales, en aprendizaje automático, en problemas de embebido, en teoría de la información y en otras áreas.

Este artículo discute algunos de los desarrollos históricos y actuales de la teoría de los núcleos definidos positivos, comenzando con la idea general y las propiedades antes de considerar sus aplicaciones prácticas.

Definición

Resumir

Contexto

Sea ${\mathcal {X}}$ un conjunto no vacío, a veces denominado conjunto índice. Una función simétrica $K:{\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ se denomina núcleo definido positivo (d.p.) en ${\mathcal {X}}$ si

$\sum _{i=1}^{n}\sum _{j=1}^{n}c_{i}c_{j}K(x_{i},x_{j})\geq 0$

(1.1)

se cumple para cualquier $x_{1},\dots ,x_{n}\in {\mathcal {X}}$ , dado $n\in \mathbb {N} ,c_{1},\dots ,c_{n}\in \mathbb {R}$ .

En la teoría de la probabilidad, a veces se hace una distinción entre núcleos definidos positivos, para los cuales la igualdad en (1.1) implica $c_{i}=0\;(\forall i)$ , y núcleos semidefinidos positivos (s.d.p.), que no imponen esta condición. Téngase en cuenta que esto es equivalente a exigir que cualquier matriz finita construida mediante evaluación por pares, $\mathbf {K} _{ij}=K(x_{i},x_{j})$ , tenga autovalores completamente positivos (d.p.) o no negativos (s.d.p.).

En la literatura matemática, los núcleos suelen ser funciones de valores complejos, pero en el presente artículo figuran funciones de valores reales, que es la práctica común en las aplicaciones de núcleos d.p.

Algunas propiedades generales

Para una familia de núcleos d.p. $(K_{i})_{i\in \mathbb {N} },\ \ K_{i}:{\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ $(K_{i})_{i\in \mathbb {N} },\ \ K_{i}:{\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$
- La suma cónica $\sum _{i=1}^{n}\lambda _{i}K_{i}$ es d.p., dado $\lambda _{1},\dots ,\lambda _{n}\geq 0$
- El producto $K_{1}^{a_{1}}\dots K_{n}^{a_{n}}$ es d.p., dado $a_{1},\dots ,a_{n}\in \mathbb {N}$
- El límite $K=\lim _{n\to \infty }K_{n}$ es d.p. si el límite existe.
Si $({\mathcal {X}}_{i})_{i=1}^{n}$ es una secuencia de conjuntos y $(K_{i})_{i=1}^{n},\ \ K_{i}:{\mathcal {X}}_{i}\times {\mathcal {X}}_{i}\to \mathbb {R}$ es una secuencia de núcleos d.p., entonces tanto

K((x_{1},\dots ,x_{n}),(y_{1},\dots ,y_{n}))=\prod _{i=1}^{n}K_{i}(x_{i},y_{i})

como

K((x_{1},\dots ,x_{n}),(y_{1},\dots ,y_{n}))=\sum _{i=1}^{n}K_{i}(x_{i},y_{i})

son núcleos d.p. en

{\mathcal {X}}={\mathcal {X}}_{1}\times \dots \times {\mathcal {X}}_{n}

Sea ${\mathcal {X}}_{0}\subset {\mathcal {X}}$ . Entonces la restricción $K_{0}$ de $K$ a ${\mathcal {X}}_{0}\times {\mathcal {X}}_{0}$ también es un núcleo d.p.

Ejemplos de núcleos definidos positivos

Ejemplos comunes de núcleos d.p. definidos en el espacio euclídeo $\mathbb {R} ^{d}$ $\mathbb {R} ^{d}$ incluyen:
- Núcleo lineal: $K(\mathbf {x} ,\mathbf {y} )=\mathbf {x} ^{T}\mathbf {y} ,\quad \mathbf {x} ,\mathbf {y} \in \mathbb {R} ^{d}$ .
- Núcleo polinómico: $K(\mathbf {x} ,\mathbf {y} )=(\mathbf {x} ^{T}\mathbf {y} +r)^{n},\quad \mathbf {x} ,\mathbf {y} \in \mathbb {R} ^{d},r\geq 0,n\geq 1$ .
- Núcleo gaussiano (función núcleo de base radial): $K(\mathbf {x} ,\mathbf {y} )=e^{-{\frac {\|\mathbf {x} -\mathbf {y} \|^{2}}{2\sigma ^{2}}}},\quad \mathbf {x} ,\mathbf {y} \in \mathbb {R} ^{d},\sigma >0$ .
- Núcleo laplaciano: $K(\mathbf {x} ,\mathbf {y} )=e^{-\alpha \|\mathbf {x} -\mathbf {y} \|},\quad \mathbf {x} ,\mathbf {y} \in \mathbb {R} ^{d},\alpha >0$ .
- Núcleo de Abel: $K(x,y)=e^{-\alpha |x-y|},x,y\quad \in \mathbb {R} ,\alpha >0$ .
- Núcleo que genera espacios de Sóbolev $W_{2}^{k}(\mathbb {R} ^{d})$ : $K(x,y)=\|x-y\|_{2}^{k-{\frac {d}{2}}}B_{k-{\frac {d}{2}}}(\|x-y\|_{2})$ , donde $B_{\nu }$ es la función de Bessel de tercera especie.
- Núcleo que genera el espacio de Paley-Wiener: $K(x,y)={\mbox{sinc}}(\alpha (x-y)),x,y\in \mathbb {R} ,\alpha >0$ .
Si $H$ es un espacio de Hilbert, entonces su producto interno correspondiente $(\cdot ,\cdot )_{H}:H\times H\to \mathbb {R}$ es un núcleo d.p. De hecho, se tiene que $\sum _{i,j=1}^{n}c_{i}c_{j}(x_{i},x_{j})_{H}=\left(\sum _{i=1}^{n}c_{i}x_{i},\sum _{j=1}^{n}c_{j}x_{j}\right)_{H}=\left\|\sum _{i=1}^{n}c_{i}x_{i}\right\|_{H}^{2}\geq 0$
Núcleos definidos en $\mathbb {R} _{+}^{d}$ e histogramas: los histogramas se encuentran con frecuencia en aplicaciones de problemas de la vida real. La mayoría de las observaciones suelen estar disponibles en forma de vectores de conteo no negativos que, si se normalizan, producen histogramas de frecuencias. Se ha demostrado^[1] que la siguiente familia de métricas al cuadrado, respectivamente la divergencia de Jensen, el cuadrado $\chi$ , la variación total y dos variaciones de la distancia de Hellinger: $\psi _{JD}=H\left({\frac {\theta +\theta '}{2}}\right)-{\frac {H(\theta )+H(\theta ')}{2}},$ $\psi _{\chi ^{2}}=\sum _{i}{\frac {(\theta _{i}-\theta _{i}')^{2}}{\theta _{i}+\theta _{i}'}},\quad \psi _{TV}=\sum _{i}\left|\theta _{i}-\theta _{i}'\right|,$ $\psi _{H_{1}}=\sum _{i}\left|{\sqrt {\theta _{i}}}-{\sqrt {\theta _{i}'}}\right|,\psi _{H_{2}}=\sum _{i}\left|{\sqrt {\theta _{i}}}-{\sqrt {\theta _{i}'}}\right|^{2},$ se pueden utilizar para definir núcleos d.p. utilizando la siguiente fórmula $K(\theta ,\theta ')=e^{-\alpha \psi (\theta ,\theta ')},\alpha >0.$

Historia

Resumir

Contexto

Los núcleos definidos positivos, como se definen en (1.1), aparecieron por primera vez en 1909 en un artículo sobre ecuaciones integrales de James Mercer.^[2] Varios otros autores hicieron uso de este concepto en las siguientes dos décadas, pero ninguno de ellos usó explícitamente núcleos $K(x,y)=f(x-y)$ , es decir, funciones d.p. (de hecho, M. Mathias y S. Bochner parecen no haber estado al tanto de estos estudios). El trabajo de Mercer surgió del artículo de Hilbert de 1904^[3] sobre las ecuaciones integrales de Fredholm del segundo tipo:

$f(s)=\phi (s)-\lambda \int _{a}^{b}K(s,t)\phi (t)\ \mathrm {d} t.$

(1.2)

En particular, Hilbert había demostrado que:

$\int _{a}^{b}\int _{a}^{b}K(s,t)x(s)x(t)\ \mathrm {d} s\mathrm {d} t=\sum {\frac {1}{\lambda _{n}}}\left[\int _{a}^{b}\psi _{n}(s)x(s)\mathrm {d} s\right]^{2},$

(1.3)

donde $K$ es un núcleo simétrico real continuo, $x$ es continuo, $\{\psi _{n}\}$ es un sistema completo de orthonormal eigenfunctions y los $\lambda _{n}$ son los correspondientes autovalores de (1.2). Hilbert ideó la definición de un núcleo definido como uno para el cual la integral doble

J(x)=\int _{a}^{b}\int _{a}^{b}K(s,t)x(s)x(t)\ \mathrm {d} s\;\mathrm {d} t

satisface que $J(x)>0$ excepto para $x(t)=0$ . El objeto original del artículo de Mercer era caracterizar los núcleos que son definidos en el sentido de Hilbert, pero pronto descubrió que la clase de tales funciones era demasiado restrictiva para caracterizarlas en términos de determinantes. Por lo tanto, definió un núcleo simétrico real continuo $K(s,t)$ como de tipo positivo (es decir, definido positivo) si $J(x)\geq 0$ para todas las funciones continuas reales $x$ sobre $[a,b]$ , y demostró que (1.1) es una condición necesaria y suficiente para que un núcleo sea de tipo positivo. Luego demostró que para cualquier núcleo d.p. la expansión

K(s,t)=\sum _{n}{\frac {\psi _{n}(s)\psi _{n}(t)}{\lambda _{n}}}

se mantiene absoluta y uniformemente.

Aproximadamente al mismo tiempo, W. H. Young,^[4] motivado por una pregunta diferente en la teoría de ecuaciones integrales, demostró que para núcleos continuos la condición (1.1) es equivalente a $J(x)\geq 0$ para todo $x\in L^{1}[a,b]$ .

E.H. Moore^[5]^[6] inició el estudio de un tipo muy general de núcleo d.p. Si $E$ es un conjunto abstracto, llama a las funciones $K(x,y)$ definidas en $E\times E$ matrices hermíticas positivas si cumplen (1.1) para todo $x_{i}\in E$ . Moore estaba interesado en la generalización de ecuaciones integrales y demostró que para cada $K$ existe un espacio de Hilbert $H$ de funciones tales que, para cada $f\in H,f(y)=(f,K(\cdot ,y))_{H}$ . Esta propiedad se denomina propiedad de reproducción del núcleo y resulta ser importante en la solución de problemas de valores de frontera para ecuaciones diferenciales parciales elípticas.

Otra línea de desarrollo en la que los núcleos d.p. jugaron un papel importante fue la teoría de los armónicos en espacios homogéneos, iniciada por E. Cartan en 1929, y continuada por H. Weyl y S. Ito. La teoría más completa sobre núcleos d.p. en espacios homogéneos es la de Mark Krein^[7] que incluye como casos especiales el trabajo sobre funciones d.p. e irreducibles representaciones unitarias de grupos localmente compactos.

En la teoría de la probabilidad los núcleos d.p. surgen como núcleos de covarianza de procesos estocásticos.^[8]

Conexión con la reproducción de núcleos de espacios de Hilbert y mapas de características

Resumir

Contexto

Véase también: Reproducción de núcleos de espacios de Hilbert

Los núcleos definidos positivos proporcionan un marco que abarca algunas construcciones espaciales básicas de Hilbert. A continuación, se presenta una estrecha relación entre los núcleos definidos positivos y dos objetos matemáticos, a saber, la reproducción de núcleos de espacios de Hilbert y mapas de características.

Sea $X$ un conjunto, $H$ un espacio de Hilbert de funciones $f:X\to \mathbb {R}$ y $(\cdot ,\cdot )_{H}:H\times H\to \mathbb {R}$ el producto interno correspondiente en $H$ . Para cualquier $x\in X$ , la evaluación funcional $e_{x}:H\to \mathbb {R}$ está definida por $f\mapsto e_{x}(f)=f(x)$ . Primero se define un espacio de Hilbert del núcleo de reproducción (EHRN):

Definición: Un espacio $H$ es denominado espacio de Hilbert con reproducción del núcleo si los funcionales valoración son continuos.

Cada EHRN tiene una función especial asociada, a saber, el núcleo reproductor:

Definición: El núcleo reproductor es una función $K:X\times X\to \mathbb {R}$ tal que

$K_{x}(\cdot )\in H,\forall x\in X$ , y

$(f,K_{x})=f(x)$ , para todo $f\in H$ y $x\in X$ .
La última propiedad se llama la propiedad de reproducción.

El siguiente resultado muestra la equivalencia entre EHRN y la reproducción de los núcleos:

Cada núcleo reproductor $K$ induce un único EHRN, y cada EHRN posee un único núcleo reproductor.

Ahora, la conexión entre los núcleos definidos positivos y los EHRN viene dada por el siguiente teorema

Todo núcleo reproductor es definido positivo, y todo núcleo definido positivo define un EHRN único, del cual es el núcleo reproductor único.

Por lo tanto, dado un núcleo definido positivo $K$ , es posible construir un EHRN asociado con $K$ como núcleo reproductor.

Como se indicó anteriormente, los núcleos definidos positivos se pueden construir a partir de productos internos. Este hecho se puede utilizar para conectar los núcleos d.p. con otro objeto interesante que surge en las aplicaciones de aprendizaje automático, a saber, el mapa de características. Sea $F$ un espacio de Hilbert y $(\cdot ,\cdot )_{F}$ el producto interno correspondiente. Cualquier mapa $\Phi :X\to F$ se denomina mapa de características. En este caso se denomina $F$ al espacio de características. Es fácil ver^[9] que cada mapa de características define un único núcleo d.p. por

K(x,y)=(\Phi (x),\Phi (y))_{F}.

De hecho, la definición positiva de $K$ se deriva de la propiedad del producto interior definido positivo. Por otro lado, cada núcleo d.p. y su EHRN correspondiente tienen muchos mapas de características asociados. Por ejemplo: sean $F=H$ , y $\Phi (x)=K_{x}$ para todo $x\in X$ . Entonces $(\Phi (x),\Phi (y))_{F}=(K_{x},K_{y})_{H}=K(x,y)$ , por la propiedad de reproducción. Esto sugiere una nueva visión de los núcleos d.p. como productos internos en espacios de Hilbert propios, o en otras palabras, los núcleos d.p. se pueden ver como mapas de similitud que cuantifican de manera efectiva lo similares que son dos puntos $x$ e $y$ a través del valor $K(x,y)$ . Además, mediante la equivalencia de núcleos d.p. y su correspondiente EHRN, cada mapa de características se puede utilizar para construir un EHRN.

Núcleos y distancias

Resumir

Contexto

Los métodos del núcleo a menudo se comparan con los métodos basados en la distancia, como vecinos más próximos. En esta sección se discuten los paralelismos entre sus dos ingredientes respectivos, a saber, los núcleos $K$ y las distancias $d$ .

Aquí, por una función de distancia entre cada par de elementos de algún conjunto $X$ , se hace referencia a una métrica definida en ese conjunto, es decir, cualquier función de valor no negativo $d$ en ${\mathcal {X}}\times {\mathcal {X}}$ que satisfaga

$d(x,y)\geq 0$ y $d(x,y)=0$ si y solo si $x=y$ ,
$d(x,y)=d(y,x)$ ,
$d(x,z)\leq d(x,y)+d(y,z)$ .

Un enlace entre distancias y núcleos d.p. está dada por un tipo particular de núcleo, llamado núcleo definido negativo, caracterizado de la siguiente manera

Definición: Una función simétrica ${\displaystyle \psi$ se denomina núcleo definido negativo (d.n.) sobre ${\mathcal {X}}$ si

$\sum _{i,j=1}^{n}c_{i}c_{j}\psi (x_{i},x_{j})\leq 0$

(1.4)

mantiene para cualquier $n\in \mathbb {N} ,x_{1},\dots ,x_{n}\in {\mathcal {X}},$ y $c_{1},\dots ,c_{n}\in \mathbb {R}$ tales que ${\textstyle \sum _{i=1}^{n}c_{i}=0}$ .

El paralelismo entre núcleos d.n. y distancias es el siguiente: siempre que un núcleo d.n. desaparece en el conjunto $\{(x,x):x\in {\mathcal {X}}\}$ , y es cero solo en este conjunto, entonces su raíz cuadrada es una distancia para ${\mathcal {X}}$ .^[10] Al mismo tiempo cada distancia no corresponde necesariamente a un núcleo d.n. Esto solo es cierto para distancias hilbertianas, en las que la distancia $d$ se llama hilbertiana si se puede embeber el espacio métrico $({\mathcal {X}},d)$ isométricamente en algún espacio de Hilbert.

Por otra parte, los núcleos d.n. se pueden identificar con una subfamilia de núcleos d.p. conocidos como núcleos infinitamente divisibles. Se dice que un núcleo $K$ de valor no negativo es infinitamente divisible si para cada $n\in \mathbb {N}$ existe un núcleo $K_{n}$ definido positivo tal que $K=(K_{n})^{n}$ .

Otra relación es que un núcleo d.p. induce una pseudométrica, donde la primera restricción en la función de distancia se relaja para permitir que $d(x,y)=0$ para $x\neq y$ . Dado un núcleo definido positivo $K$ , se puede definir una función de distancia como:

d(x,y)={\sqrt {K(x,x)-2K(x,y)+K(y,y)}}

Algunas aplicaciones

Resumir

Contexto

Núcleos en el aprendizaje automático

Véase también: Método kernel

Los núcleos definidos positivos, a través de su equivalencia con la reproducción de espacios de Hilbert del núcleo, son particularmente importantes en el campo de la teoría del aprendizaje estadística debido al célebre teorema de representación que establece que cada función minimizadora en un EHRN se puede escribir como una combinación lineal de la función del núcleo evaluada en los puntos de entrenamiento. Este es un resultado útil en la práctica, ya que simplifica eficazmente el problema de minimización de riesgos empíricos de un problema de optimización de dimensión infinita a uno de dimensión finita.

Núcleos en modelos probabilísticos

Hay varias formas diferentes en las que surgen núcleos en la teoría de la probabilidad.

Problemas de recuperación no deterministas: supóngase que se quiere encontrar la respuesta $f(x)$ de una función modelo desconocida $f$ en un nuevo punto $x$ de un conjunto ${\mathcal {X}}$ , siempre que se tenga una muestra de pares de entrada-salida $(x_{i},f_{i})=(x_{i},f(x_{i}))$ dada por observación o experimento. La respuesta $f_{i}$ en $x_{i}$ no es una función fija de $x_{i}$ sino una realización de una variable aleatoria de valor real $Z(x_{i})$ . El objetivo es obtener información sobre la función $E[Z(x_{i})]$ que reemplaza a $f$ en la configuración determinista. Para dos elementos $x,y\in {\mathcal {X}}$ , las variables aleatorias $Z(x)$ y $Z(y)$ no estarán descorrelacionadas, porque si $x$ está demasiado cerca de $y$ , los experimentos aleatorios descritos por $Z(x)$ y $Z(y)$ a menudo mostrarán un comportamiento similar. Esto se describe mediante un núcleo de covarianza $K(x,y)=E[Z(x)\cdot Z(y)]$ . Tal núcleo existe y es positivo-definido bajo suposiciones adicionales débiles. Sin embargo, se puede obtener una buena estimación de $Z(x)$ utilizando la interpolación con el núcleo de covarianza, ignorando por completo el fondo probabilístico.

Supóngase ahora que una variable de ruido $\epsilon (x)$ , con media cero y varianza $\sigma ^{2}$ , se agrega a $x$ , de modo que el ruido es independiente para diferentes $x$ e independiente de $Z$ , entonces el problema de encontrar una buena estimación para $f$ es idéntico al anterior, pero con un núcleo modificado proporcionado por $K(x,y)=E[Z(x)\cdot Z(y)]+\sigma ^{2}\delta _{xy}$ .

Estimación de densidad por núcleos: el problema es recuperar la densidad $f$ de una distribución multivariante sobre un dominio ${\mathcal {X}}$ , a partir de una muestra grande $x_{1},\dots ,x_{n}\in {\mathcal {X}}$ incluyendo repeticiones. Cuando los puntos de muestreo son densos, la verdadera función de densidad debe tomar valores grandes. Es posible una estimación de densidad simple contando el número de muestras en cada celda de una cuadrícula y trazando el histograma resultante, que produce una estimación de densidad constante por partes. Se puede obtener una mejor estimación utilizando un núcleo invariante de traslación no negativa $K$ , con integral total igual a uno, y definiendo $f(x)={\frac {1}{n}}\sum _{i=1}^{n}K\left({\frac {x-x_{i}}{h}}\right)$ como una estimación suave.

Solución numérica de ecuaciones diferenciales parciales

Véase también: Métodos sin malla

Una de las mayores áreas de aplicación de los llamados métodos sin malla es la solución numérica de ecuaciones en derivadas parciales. Algunos de los métodos populares sin malla están estrechamente relacionados con los núcleos definidos positivos (como el método sin malla local de Petrov Galerkin, el método de partícula del núcleo de reproducción y la hidrodinámica de partículas suavizadas). Estos procedimientos utilizan un núcleo de base radial con un método de colocación.^[11]

Teorema de dilatación de Stinespring

Véase también: Teorema de dilatación de Stinespring

Otras aplicaciones

En la literatura sobre experimentos informáticos^[12] y otros experimentos de ingeniería, se encuentran cada vez más modelos basados en núcleos d.p., la función núcleo de base radial o el krigeaje. Uno de esos temas es la metodología de superficie de respuesta. Otros tipos de aplicaciones que se reducen al ajuste de datos son el prototipado rápido y los gráficos por computadora. Aquí, a menudo se usan modelos de superficie implícitos para aproximar o interpolar datos de nubes de puntos.

Aplicaciones de los núcleos definidos positivos en varias otras ramas de las matemáticas se encuentran en la integración multivariante, la optimización multivariante y en el análisis numérico y la computación científica, donde se estudian algoritmos rápidos, precisos y adaptables, idealmente desarrollados en entornos informáticos de alto rendimiento.^[13]

Véase también

Función covarianza
Ecuación integral
Transformada integral
Función definida positiva en un grupo
Reproducción del espacio de Hilbert del núcleo
Método del kernel

Referencias

[1]
Hein, M. and Bousquet, O. (2005). "Hilbertian metrics and positive definite kernels on probability measures". In Ghahramani, Z. and Cowell, R., editors, Proceedings of AISTATS 2005.
[2]
Mercer, J. (1909). “Functions of positive and negative type and their connection with the theory of integral equations”. Philosophical Transactions of the Royal Society of London, Series A 209, pp. 415-446.
[3]
Hilbert, D. (1904). "Grundzuge einer allgemeinen Theorie der linearen Integralgleichungen I", Gott. Nachrichten, math.-phys. K1 (1904), pp. 49-91.
[4]
Young, W. H. (1909). "A note on a class of symmetric functions and on a theorem required in the theory of integral equations", Philos. Trans. Roy.Soc. London, Ser. A, 209, pp. 415-446.
[5]
Moore, E.H. (1916). "On properly positive Hermitian matrices", Bull. Amer. Math. Soc. 23, 59, pp. 66-67.
[6]
Moore, E.H. (1935). "General Analysis, Part I", Memoirs Amer. Philos. Soc. 1, Philadelphia.
[7]
Krein. M (1949/1950). "Hermitian-positive kernels on homogeneous spaces I and II" (in Russian), Ukrain. Mat. Z. 1(1949), pp. 64-98, and 2(1950), pp. 10-59. English translation: Amer. Math. Soc. Translations Ser. 2, 34 (1963), pp. 69-164.
[8]
Loève, M. (1960). "Probability theory", 2nd ed., Van Nostrand, Princeton, N.J.
[9]
Rosasco, L. and Poggio, T. (2015). "A Regularization Tour of Machine Learning - MIT 9.520 Lecture Notes" Manuscript.
[10]
Berg, C., Christensen, J. P. R., and Ressel, P. (1984). "Harmonic Analysis on Semigroups". Number 100 in Graduate Texts in Mathematics, Springer Verlag.
[11]
Schabak, R. and Wendland, H. (2006). "Kernel Techniques: From Machine Learning to Meshless Methods", Cambridge University Press, Acta Numerica (2006), pp. 1-97.
[12]
Haaland, B. and Qian, P. Z. G. (2010). "Accurate emulators for large-scale computer experiments", Ann. Stat.
[13]
Gumerov, N. A. and Duraiswami, R. (2007). "Fast radial basis function interpolation via preconditioned Krylov iterationUso incorrecto de la plantilla enlace roto (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).". SIAM J. Scient. Computing 29/5, pp. 1876-1899.

Datos: Q7233207

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Definición

Resumir

Contexto

$\sum _{i=1}^{n}\sum _{j=1}^{n}c_{i}c_{j}K(x_{i},x_{j})\geq 0$

(1.1)

se cumple para cualquier $x_{1},\dots ,x_{n}\in {\mathcal {X}}$ , dado $n\in \mathbb {N} ,c_{1},\dots ,c_{n}\in \mathbb {R}$ .

Algunas propiedades generales

Para una familia de núcleos d.p. $(K_{i})_{i\in \mathbb {N} },\ \ K_{i}:{\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ $(K_{i})_{i\in \mathbb {N} },\ \ K_{i}:{\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$
- La suma cónica $\sum _{i=1}^{n}\lambda _{i}K_{i}$ es d.p., dado $\lambda _{1},\dots ,\lambda _{n}\geq 0$
- El producto $K_{1}^{a_{1}}\dots K_{n}^{a_{n}}$ es d.p., dado $a_{1},\dots ,a_{n}\in \mathbb {N}$
- El límite $K=\lim _{n\to \infty }K_{n}$ es d.p. si el límite existe.
Si $({\mathcal {X}}_{i})_{i=1}^{n}$ es una secuencia de conjuntos y $(K_{i})_{i=1}^{n},\ \ K_{i}:{\mathcal {X}}_{i}\times {\mathcal {X}}_{i}\to \mathbb {R}$ es una secuencia de núcleos d.p., entonces tanto

K((x_{1},\dots ,x_{n}),(y_{1},\dots ,y_{n}))=\prod _{i=1}^{n}K_{i}(x_{i},y_{i})

como

K((x_{1},\dots ,x_{n}),(y_{1},\dots ,y_{n}))=\sum _{i=1}^{n}K_{i}(x_{i},y_{i})

son núcleos d.p. en

{\mathcal {X}}={\mathcal {X}}_{1}\times \dots \times {\mathcal {X}}_{n}

Sea ${\mathcal {X}}_{0}\subset {\mathcal {X}}$ . Entonces la restricción $K_{0}$ de $K$ a ${\mathcal {X}}_{0}\times {\mathcal {X}}_{0}$ también es un núcleo d.p.

Ejemplos de núcleos definidos positivos

Ejemplos comunes de núcleos d.p. definidos en el espacio euclídeo $\mathbb {R} ^{d}$ $\mathbb {R} ^{d}$ incluyen:
- Núcleo lineal: $K(\mathbf {x} ,\mathbf {y} )=\mathbf {x} ^{T}\mathbf {y} ,\quad \mathbf {x} ,\mathbf {y} \in \mathbb {R} ^{d}$ .
- Núcleo polinómico: $K(\mathbf {x} ,\mathbf {y} )=(\mathbf {x} ^{T}\mathbf {y} +r)^{n},\quad \mathbf {x} ,\mathbf {y} \in \mathbb {R} ^{d},r\geq 0,n\geq 1$ .
- Núcleo gaussiano (función núcleo de base radial): $K(\mathbf {x} ,\mathbf {y} )=e^{-{\frac {\|\mathbf {x} -\mathbf {y} \|^{2}}{2\sigma ^{2}}}},\quad \mathbf {x} ,\mathbf {y} \in \mathbb {R} ^{d},\sigma >0$ .
- Núcleo laplaciano: $K(\mathbf {x} ,\mathbf {y} )=e^{-\alpha \|\mathbf {x} -\mathbf {y} \|},\quad \mathbf {x} ,\mathbf {y} \in \mathbb {R} ^{d},\alpha >0$ .
- Núcleo de Abel: $K(x,y)=e^{-\alpha |x-y|},x,y\quad \in \mathbb {R} ,\alpha >0$ .
- Núcleo que genera espacios de Sóbolev $W_{2}^{k}(\mathbb {R} ^{d})$ : $K(x,y)=\|x-y\|_{2}^{k-{\frac {d}{2}}}B_{k-{\frac {d}{2}}}(\|x-y\|_{2})$ , donde $B_{\nu }$ es la función de Bessel de tercera especie.
- Núcleo que genera el espacio de Paley-Wiener: $K(x,y)={\mbox{sinc}}(\alpha (x-y)),x,y\in \mathbb {R} ,\alpha >0$ .
Si $H$ es un espacio de Hilbert, entonces su producto interno correspondiente $(\cdot ,\cdot )_{H}:H\times H\to \mathbb {R}$ es un núcleo d.p. De hecho, se tiene que $\sum _{i,j=1}^{n}c_{i}c_{j}(x_{i},x_{j})_{H}=\left(\sum _{i=1}^{n}c_{i}x_{i},\sum _{j=1}^{n}c_{j}x_{j}\right)_{H}=\left\|\sum _{i=1}^{n}c_{i}x_{i}\right\|_{H}^{2}\geq 0$
Núcleos definidos en $\mathbb {R} _{+}^{d}$ e histogramas: los histogramas se encuentran con frecuencia en aplicaciones de problemas de la vida real. La mayoría de las observaciones suelen estar disponibles en forma de vectores de conteo no negativos que, si se normalizan, producen histogramas de frecuencias. Se ha demostrado^[1] que la siguiente familia de métricas al cuadrado, respectivamente la divergencia de Jensen, el cuadrado $\chi$ , la variación total y dos variaciones de la distancia de Hellinger: $\psi _{JD}=H\left({\frac {\theta +\theta '}{2}}\right)-{\frac {H(\theta )+H(\theta ')}{2}},$ $\psi _{\chi ^{2}}=\sum _{i}{\frac {(\theta _{i}-\theta _{i}')^{2}}{\theta _{i}+\theta _{i}'}},\quad \psi _{TV}=\sum _{i}\left|\theta _{i}-\theta _{i}'\right|,$ $\psi _{H_{1}}=\sum _{i}\left|{\sqrt {\theta _{i}}}-{\sqrt {\theta _{i}'}}\right|,\psi _{H_{2}}=\sum _{i}\left|{\sqrt {\theta _{i}}}-{\sqrt {\theta _{i}'}}\right|^{2},$ se pueden utilizar para definir núcleos d.p. utilizando la siguiente fórmula $K(\theta ,\theta ')=e^{-\alpha \psi (\theta ,\theta ')},\alpha >0.$

Historia

Resumir

Contexto

$f(s)=\phi (s)-\lambda \int _{a}^{b}K(s,t)\phi (t)\ \mathrm {d} t.$

(1.2)

En particular, Hilbert había demostrado que:

$\int _{a}^{b}\int _{a}^{b}K(s,t)x(s)x(t)\ \mathrm {d} s\mathrm {d} t=\sum {\frac {1}{\lambda _{n}}}\left[\int _{a}^{b}\psi _{n}(s)x(s)\mathrm {d} s\right]^{2},$

(1.3)

J(x)=\int _{a}^{b}\int _{a}^{b}K(s,t)x(s)x(t)\ \mathrm {d} s\;\mathrm {d} t

K(s,t)=\sum _{n}{\frac {\psi _{n}(s)\psi _{n}(t)}{\lambda _{n}}}

se mantiene absoluta y uniformemente.

En la teoría de la probabilidad los núcleos d.p. surgen como núcleos de covarianza de procesos estocásticos.^[8]

Conexión con la reproducción de núcleos de espacios de Hilbert y mapas de características

Resumir

Contexto

Véase también: Reproducción de núcleos de espacios de Hilbert

Definición: Un espacio $H$ es denominado espacio de Hilbert con reproducción del núcleo si los funcionales valoración son continuos.

Cada EHRN tiene una función especial asociada, a saber, el núcleo reproductor:

Definición: El núcleo reproductor es una función $K:X\times X\to \mathbb {R}$ tal que

$K_{x}(\cdot )\in H,\forall x\in X$ , y

$(f,K_{x})=f(x)$ , para todo $f\in H$ y $x\in X$ .
La última propiedad se llama la propiedad de reproducción.

El siguiente resultado muestra la equivalencia entre EHRN y la reproducción de los núcleos:

Cada núcleo reproductor $K$ induce un único EHRN, y cada EHRN posee un único núcleo reproductor.

Ahora, la conexión entre los núcleos definidos positivos y los EHRN viene dada por el siguiente teorema

Todo núcleo reproductor es definido positivo, y todo núcleo definido positivo define un EHRN único, del cual es el núcleo reproductor único.

Por lo tanto, dado un núcleo definido positivo $K$ , es posible construir un EHRN asociado con $K$ como núcleo reproductor.

K(x,y)=(\Phi (x),\Phi (y))_{F}.

Núcleos y distancias

Resumir

Contexto

$d(x,y)\geq 0$ y $d(x,y)=0$ si y solo si $x=y$ ,
$d(x,y)=d(y,x)$ ,
$d(x,z)\leq d(x,y)+d(y,z)$ .

Un enlace entre distancias y núcleos d.p. está dada por un tipo particular de núcleo, llamado núcleo definido negativo, caracterizado de la siguiente manera

Definición: Una función simétrica ${\displaystyle \psi$ se denomina núcleo definido negativo (d.n.) sobre ${\mathcal {X}}$ si

$\sum _{i,j=1}^{n}c_{i}c_{j}\psi (x_{i},x_{j})\leq 0$

(1.4)

mantiene para cualquier $n\in \mathbb {N} ,x_{1},\dots ,x_{n}\in {\mathcal {X}},$ y $c_{1},\dots ,c_{n}\in \mathbb {R}$ tales que ${\textstyle \sum _{i=1}^{n}c_{i}=0}$ .

d(x,y)={\sqrt {K(x,x)-2K(x,y)+K(y,y)}}

Algunas aplicaciones

Resumir

Contexto

Núcleos en el aprendizaje automático

Véase también: Método kernel

Núcleos en modelos probabilísticos

Hay varias formas diferentes en las que surgen núcleos en la teoría de la probabilidad.

Problemas de recuperación no deterministas: supóngase que se quiere encontrar la respuesta $f(x)$ de una función modelo desconocida $f$ en un nuevo punto $x$ de un conjunto ${\mathcal {X}}$ , siempre que se tenga una muestra de pares de entrada-salida $(x_{i},f_{i})=(x_{i},f(x_{i}))$ dada por observación o experimento. La respuesta $f_{i}$ en $x_{i}$ no es una función fija de $x_{i}$ sino una realización de una variable aleatoria de valor real $Z(x_{i})$ . El objetivo es obtener información sobre la función $E[Z(x_{i})]$ que reemplaza a $f$ en la configuración determinista. Para dos elementos $x,y\in {\mathcal {X}}$ , las variables aleatorias $Z(x)$ y $Z(y)$ no estarán descorrelacionadas, porque si $x$ está demasiado cerca de $y$ , los experimentos aleatorios descritos por $Z(x)$ y $Z(y)$ a menudo mostrarán un comportamiento similar. Esto se describe mediante un núcleo de covarianza $K(x,y)=E[Z(x)\cdot Z(y)]$ . Tal núcleo existe y es positivo-definido bajo suposiciones adicionales débiles. Sin embargo, se puede obtener una buena estimación de $Z(x)$ utilizando la interpolación con el núcleo de covarianza, ignorando por completo el fondo probabilístico.

Estimación de densidad por núcleos: el problema es recuperar la densidad $f$ de una distribución multivariante sobre un dominio ${\mathcal {X}}$ , a partir de una muestra grande $x_{1},\dots ,x_{n}\in {\mathcal {X}}$ incluyendo repeticiones. Cuando los puntos de muestreo son densos, la verdadera función de densidad debe tomar valores grandes. Es posible una estimación de densidad simple contando el número de muestras en cada celda de una cuadrícula y trazando el histograma resultante, que produce una estimación de densidad constante por partes. Se puede obtener una mejor estimación utilizando un núcleo invariante de traslación no negativa $K$ , con integral total igual a uno, y definiendo $f(x)={\frac {1}{n}}\sum _{i=1}^{n}K\left({\frac {x-x_{i}}{h}}\right)$ como una estimación suave.

Solución numérica de ecuaciones diferenciales parciales

Véase también: Métodos sin malla

Teorema de dilatación de Stinespring

Véase también: Teorema de dilatación de Stinespring

Otras aplicaciones

Referencias

[1]
Hein, M. and Bousquet, O. (2005). "Hilbertian metrics and positive definite kernels on probability measures". In Ghahramani, Z. and Cowell, R., editors, Proceedings of AISTATS 2005.
[2]
Mercer, J. (1909). “Functions of positive and negative type and their connection with the theory of integral equations”. Philosophical Transactions of the Royal Society of London, Series A 209, pp. 415-446.
[3]
Hilbert, D. (1904). "Grundzuge einer allgemeinen Theorie der linearen Integralgleichungen I", Gott. Nachrichten, math.-phys. K1 (1904), pp. 49-91.
[4]
Young, W. H. (1909). "A note on a class of symmetric functions and on a theorem required in the theory of integral equations", Philos. Trans. Roy.Soc. London, Ser. A, 209, pp. 415-446.
[5]
Moore, E.H. (1916). "On properly positive Hermitian matrices", Bull. Amer. Math. Soc. 23, 59, pp. 66-67.
[6]
Moore, E.H. (1935). "General Analysis, Part I", Memoirs Amer. Philos. Soc. 1, Philadelphia.
[7]
Krein. M (1949/1950). "Hermitian-positive kernels on homogeneous spaces I and II" (in Russian), Ukrain. Mat. Z. 1(1949), pp. 64-98, and 2(1950), pp. 10-59. English translation: Amer. Math. Soc. Translations Ser. 2, 34 (1963), pp. 69-164.
[8]
Loève, M. (1960). "Probability theory", 2nd ed., Van Nostrand, Princeton, N.J.
[9]
Rosasco, L. and Poggio, T. (2015). "A Regularization Tour of Machine Learning - MIT 9.520 Lecture Notes" Manuscript.
[10]
Berg, C., Christensen, J. P. R., and Ressel, P. (1984). "Harmonic Analysis on Semigroups". Number 100 in Graduate Texts in Mathematics, Springer Verlag.
[11]
Schabak, R. and Wendland, H. (2006). "Kernel Techniques: From Machine Learning to Meshless Methods", Cambridge University Press, Acta Numerica (2006), pp. 1-97.
[12]
Haaland, B. and Qian, P. Z. G. (2010). "Accurate emulators for large-scale computer experiments", Ann. Stat.
[13]
Gumerov, N. A. and Duraiswami, R. (2007). "Fast radial basis function interpolation via preconditioned Krylov iterationUso incorrecto de la plantilla enlace roto (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).". SIAM J. Scient. Computing 29/5, pp. 1876-1899.

Datos: Q7233207