Loading AI tools
De Wikipedia, la enciclopedia libre
La regresión Ridge (también llamada regresión cresta) es un método de estimación de los coeficientes de modelos de regresión múltiple en escenarios en los que las variables independientes están muy correlacionadas.[1] Se ha utilizado en muchos campos, como la econometría, la química y la ingeniería.[2] También conocido como regularización de Tíjonov, en honor a Andrey Tikhonov, es un método de regularización de problemas mal planteados.[nota 1] Es particularmente útil para mitigar el problema de la multicolinealidad en la regresión lineal, que se produce comúnmente en modelos con un gran número de parámetros.[3] En general, el método proporciona una mayor eficiencia en los problemas de estimación de parámetros a cambio de una cantidad tolerable de sesgo (ver compensación sesgo-varianza).[4]
La teoría fue introducida por primera vez por Hoerl y Kennard en 1970 en sus artículos de Technometrics "Ridge regressions: biased estimation of nonorthogonal problems" y "Ridge regressions: applications in nonorthogonal problems",[1][5][6] resultado de diez años de investigación en el campo del análisis de crestas.[7]
La regresión Ridge se desarrolló como una posible solución a la imprecisión de los estimadores de mínimos cuadrados cuando los modelos de regresión lineal tienen algunas variables independientes multicolineales (altamente correlacionadas) mediante la creación de un estimador de regresión de cresta (RR). Esto proporciona una estimación más precisa de los parámetros de la cresta, ya que su varianza y estimador cuadrático medio son a menudo más pequeños que los estimadores mínimos cuadrados derivados anteriormente.[2][8]
En el caso más sencillo, el problema de una matriz de momentos casi sinular se alivia añadiendo elementos positivos a las diagonales, con lo que disminuye su número de condición. De forma análoga al estimador de mínimos cuadrados ordinarios, el estimador de cresta simple viene dado por:
Donde es la regresión, es la matriz de diseño, es la matriz de identidad, y el parámetro ridge sirve como constante que desplaza las diagonales de la matriz de momentos.[9] Puede demostrarse que este estimador es la solución al problema de mínimos cuadrados sujeto a la restricción , que puede expresarse como un Lagrangiano:
que muestra que no es más que el multiplicador de Lagrange de la restricción.[10] Típicamente, se elige según un criterio heurístico, de modo que la restricción no se satisfará exactamente. Concretamente en el caso de , en el que la restricción no es vinculante, el estimador de cresta se reduce a mínimos cuadrados ordinarios. A continuación se analiza un enfoque más general de la regularización de Tíjonov.
La regularización de Tíjonov se inventó de forma independiente en muchos contextos diferentes. Se dio a conocer ampliamente a través de su aplicación a ecuaciones integrales en los trabajos de Andrey Tikhonov[11][12][13][14][15] y David L. Phillips.[16] Algunos autores utilizan el término regularización Tíjonov-Phillips. El caso de dimensión finita fue expuesto por Arthur E. Hoerl, que adoptó un enfoque estadístico,[17] y por Manus Foster, que interpretó este método como un filtro de Wiener-Kolmogorov (Kriging).[18] Siguiendo a Hoerl, se conoce en la literatura estadística como regresión ridge,[19] llamada así por el análisis ridge ("ridge" se refiere a la trayectoria desde el máximo restringido).[20]
Supongamos que para una matriz conocida y el vector , queremos encontrar un vector de forma que:
donde y pueden ser de diferentes tamaños y puede no ser cuadrado.
El enfoque estándar es la regresión lineal por mínimos cuadrados ordinarios. Sin embargo, si ninguna satisface la ecuación o más de una lo satisface, es decir, la solución no es única, se dice que el problema está mal planteado. En tales casos, la estimación por mínimos cuadrados ordinarios conduce a un sistema de ecuaciones sobredeterminado o, más a menudo, subdeterminado. La mayoría de los fenómenos del mundo real tienen el efecto de filtros de paso bajo en la dirección de avance, donde mapea hacia . Por lo tanto, al resolver el problema inverso, la cartografía inversa funciona como un filtro de paso alto que tiene la tendencia indeseable de amplificar el ruido (los valores propios / valores singulares son mayores en la cartografía inversa donde eran menores en la cartografía directa). Además, los mínimos cuadrados ordinarios anulan implícitamente cada elemento de la versión reconstruida de que está en el espacio nulo de , en lugar de permitir que un modelo se utilice como prior para . Los mínimos cuadrados ordinarios buscan minimizar la suma de los residuos al cuadrado, que puede escribirse de forma compacta como:
donde es la norma euclidiana.
Para dar preferencia a una solución particular con propiedades deseables, se puede incluir un término de regularización en esta minimización:
para una matriz de Tíjonov convenientemente elegida . En muchos casos, esta matriz se elige como múltiplo escalar de la matriz identidad , dando preferencia a las soluciones con normas más pequeñas; esto se conoce como regularización L2 .[21] En otros casos, pueden utilizarse operadores de paso alto (por ejemplo, un operador de diferencia o un operador de Fourier ponderado) para imponer la suavidad si se cree que el vector subyacente es mayoritariamente continuo. Esta regularización mejora el condicionamiento del problema, permitiendo así una solución numérica directa. Una solución explícita, denotada por es dado por
El efecto de la regularización puede variar en función de la escala de la matriz . Para se reduce a la solución por mínimos cuadrados no regularizada, siempre que (ATA)-1 exista.
La regularización de L2 se utiliza en muchos contextos aparte de la regresión lineal, como la clasificación con regresión logística o máquinas de vectores de soporte,[22] y la factorización de matrices.[23]
Dado que la Regularización de Tíjonov simplemente añade un término cuadrático a la función objetivo en los problemas de optimización, es posible hacerlo después de que se haya producido la optimización no regularizada. Por ejemplo, si el problema anterior con se obtiene la solución la solución en presencia de puede expresarse como sigue:
con la "matriz de regularización"
Si el ajuste de parámetros viene acompañado de una matriz de covarianza de las incertidumbres estimadas de los parámetros entonces la matriz de regularización será
y el resultado regularizado tendrá una nueva covarianza
En el contexto de ajustes de verosimilitud arbitrarios, esto es válido, siempre que la aproximación cuadrática de la función de verosimilitud sea válida. Esto significa que, siempre que la perturbación del resultado no regularizado sea pequeña, se puede regularizar cualquier resultado que se presente como un punto de mejor ajuste con una matriz de covarianza. No se necesita un conocimiento detallado de la función de verosimilitud subyacente.[24]
Para distribuciones normales multivariantes generales para y el error de los datos, se puede aplicar una transformación de las variables para reducir al caso anterior. De forma equivalente, se puede buscar un para minimizar:
donde se usó para representar la norma ponderada al cuadrado (compárese con la distancia de Mahalanobis). En la interpretación bayesiana es la matriz de covarianza inversa de , es el valor esperado de , y es la matriz de covarianza inversa de . La matriz de Tíjonov viene dada entonces como una factorización de la matriz (por ejemplo, la factorización de Cholesky) y se considera un filtro de blanqueamiento.
Este problema generalizado tiene una solución óptima que puede escribirse explícitamente mediante la fórmula
o equivalentemente, cuando Q no es una matriz nula:
En algunas situaciones, se puede evitar el uso de la transposición a propuesta de Mikhail Lavrentyev.[25] Por ejemplo, si es simétrica positiva definida, es decir , también lo es su inversa , que puede utilizarse para establecer la norma ponderada al cuadrado en la regularización generalizada de Tikhonov, lo que lleva a minimizar:
o, lo que es lo mismo, hasta un término constante,
Este problema de minimización tiene una solución óptima que puede escribirse explícitamente mediante la fórmula
que no es sino la solución del problema generalizado de Tikhonov donde
La regularización de Lavrentyev, si procede, es ventajosa respecto a la regularización original de Tikhonov, ya que la matriz de Lavrentyev puede estar mejor condicionada, es decir, tener un número de condición menor, en comparación con la matriz de Tikhonov
Normalmente, los problemas lineales discretos mal condicionados son el resultado de la discretización de ecuaciones integrales, y se puede formular una regularización de Tíjonov en el contexto original de dimensión infinita. En lo anterior podemos interpretar como operador compacto en espacios de Hilbert, y y como elementos del dominio y rango de . El operador es entonces un operador autoadjunto acotado invertible.
Con esta solución de mínimos cuadrados puede analizarse de forma especial mediante la descomposición de valores singulares. Dada la descomposición del valor singular:
con valores singulares , la solución regularizada de Tikhonov puede expresarse como
donde tiene valores diagonales
y es cero en el resto. Esto demuestra el efecto del parámetro de Tikhonov en el número de condición del problema regularizado. Para el caso generalizado, puede obtenerse una representación similar utilizando una descomposición generalizada de valores singulares.[26]
Por último, está relacionado con el filtro de Wiener:
donde los pesos Wiener son y es el rango de .
El parámetro óptimo de regularización suele ser desconocida y, a menudo, en los problemas prácticos se determina mediante un método ad hoc. Un posible enfoque se basa en la interpretación bayesiana que se describe a continuación. Otros enfoques son el principio de discrepancia, la validación cruzada, el método de la curva en L,[27] la máxima verosimilitud restringida y el estimador insesgado del riesgo predictivo. Grace Wahba demostró que el parámetro óptimo, en el sentido de la validación cruzada dejando uno fuera minimiza.[28][29]
donde es la suma residual de cuadrados, y es el número efectivo de grados de libertad.
Utilizando la descomposición SVD anterior, podemos simplificar la expresión anterior:
y
La formulación probabilística de un problema inverso introduce (cuando todas las incertidumbres son gaussianas) una matriz de covarianza que representa las incertidumbres a priori sobre los parámetros del modelo, y una matriz de covarianza que representan las incertidumbres sobre los parámetros observados.[30] En el caso especial de que estas dos matrices sean diagonales e isótropas, y y, en este caso, las ecuaciones de la teoría inversa se reducen a las ecuaciones anteriores, con .
Aunque a primera vista la elección de la solución de este problema regularizado pueda parecer artificial, y de hecho la matriz parece bastante arbitrario, el proceso puede justificarse desde un punto de vista bayesiano.[31] Obsérvese que para un problema mal planteado hay que introducir necesariamente algunos supuestos adicionales para obtener una solución única. Estadísticamente, la distribución de probabilidad ''a priori'' de a veces se considera una distribución normal multivariante. En aras de la simplicidad, se parte de los siguientes supuestos: las medias son cero; sus componentes son independientes; los componentes tienen la misma desviación típica . Los datos también están sujetos a errores, y los errores en también se suponen independientes con media y desviación típica nulas . Bajo estos supuestos, la solución regularizada por Tikhonov es la solución más probable dados los datos y la distribución a priori de según el teorema de Bayes.[32]
Si el supuesto de normalidad se sustituye por los supuestos de homocedasticidad e incorrelación de errores, y si se sigue suponiendo que la media es cero, el teorema de Gauss-Markov implica que la solución es el estimador lineal insesgado mínimo.
Seamless Wikipedia browsing. On steroids.
Every time you click a link to Wikipedia, Wiktionary or Wikiquote in your browser's search results, it will show the modern Wikiwand interface.
Wikiwand extension is a five stars, simple, with minimum permission required to keep your browsing private, safe and transparent.