Descenso de gradiente estocástico

El descenso de gradiente estocástico (en inglés: Stochastic gradient descent, a menudo abreviado como SGD) es un método iterativo para optimizar una función objetivo con propiedades de suavidad adecuadas (por ejemplo, diferenciable o subdiferenciable). Puede considerarse una aproximación estocástica de la optimización por descenso de gradiente, ya que sustituye el gradiente real (calculado a partir de todo el conjunto de datos) por una estimación del mismo (calculada a partir de un subconjunto de datos seleccionados aleatoriamente). Especialmente en problemas de optimización de alta dimensión, esto reduce la elevadísima carga computacional, consiguiendo iteraciones más rápidas a cambio de una menor tasa de convergencia.^[1]

Aunque la idea básica de la aproximación estocástica se remonta al algoritmo Robbins-Monro de la década de 1950, el descenso de gradiente estocástico se ha convertido en un importante método de optimización en el aprendizaje automático.^[2]

[1]

[2]