Top Qs
Línea de tiempo
Chat
Contexto

XGBoost

De Wikipedia, la enciclopedia libre

XGBoost
Remove ads

XGBoost [1] (eXtreme Gradient Boosting) es una biblioteca de software de código abierto que proporciona un marco de regularización de potenciación de gradiente para C++, Java, Python,[2] R,[3] Julia,[4] Perl,[5] y Scala. . Funciona en Linux, Microsoft Windows,[6] y macOS.[7] El propósito del proyecto es ofrecer una biblioteca distribuida, portátil y escalable para potenciación de gradiente. Esta biblioteca puede operar tanto en una única máquina como en entornos de procesamiento distribuido Apache Hadoop, Apache Spark, Apache Flink y Dask.[8][9]

Datos rápidos Información general, Tipo de programa ...
Remove ads

A mediados de la década de 2010, XGBoost ganó mucha popularidad y atención al ser el algoritmo elegido por una gran cantidad de equipos ganadores de competiciones de aprendizaje automático.[10]

Remove ads

Historia

Resumir
Contexto

XGBoost comenzó inicialmente como un proyecto de investigación de Tianqi Chen [11] como parte del grupo Distributed (Deep) Machine Learning Community (DMLC). Se hizo muy conocido en los círculos de competencia de ML después de su uso en la solución ganadora del Higgs Machine Learning Challenge . Poco después, se crearon los paquetes Python y R, y XGBoost ahora tiene implementaciones de paquetes para Java, Scala, Julia, Perl y otros lenguajes. Esto permitió un mayor alcance de la biblioteca, atrayendo a más usuarios y contribuyendo a su creciente popularidad en la comunidad de Kaggle, donde ha sido empleada en numerosas competiciones.[10]

Rápidamente se integró con otros paquetes, lo que facilitó su uso en sus respectivas comunidades. Ahora se ha integrado con scikit-learn para usuarios de Python y con el paquete caret para usuarios de R. También se puede integrar en marcos de Data Flow como Apache Spark, Apache Hadoop y Apache Flink utilizando Rabit [12] y XGBoost4J resumidos.[13] XGBoost también está disponible en OpenCL para FPGA.[14]

Aunque el modelo XGBoost suele alcanzar una precisión superior a la de un solo árbol de decisión, esto se logra a expensas de la capacidad de interpretación intrínseca de los árboles individuales. Mientras que seguir el camino de un árbol de decisión para comprender su decisión es relativamente sencillo y autoexplicativo, hacer lo mismo para cientos o miles de árboles resulta considerablemente más complejo.

Remove ads

Características

Características destacadas de XGBoost que lo diferencian de otros algoritmos de potenciación de gradiente incluyen:[15][16][17]

  • Penalización inteligente de árboles
  • Reducción proporcional de nodos hoja
  • Potenciación de Newton
  • Parámetro adicional de aleatorización
  • Implementación en sistemas individuales y distribuidos, y cálculo fuera de línea
  • Selección automática de características
  • Esbozo ponderado de cuantiles justificado teóricamente para cálculos eficientes
  • Impulso de estructura de árbol paralelo con esparsidad
  • Estructura de bloques caché eficiente para el entrenamiento de árboles de decisión
Remove ads

El algoritmo

Resumir
Contexto

XGBoost funciona mediante una aproximación de Taylor de segundo orden en la función de pérdida para establecer la conexión con el método de Newton Raphson.

Un algoritmo XGBoost genérico no regularizado es:

Entradas: conjunto de entrenamiento , una función de pérdida diferenciable , un número de modelos de aprendizaje débiles y una tasa de aprendizaje .

Algoritmo:

  1. Inicializar modelo con un valor constante:
  2. Para m = 1 hasta M:
    1. Calcular los 'gradientes' y los 'hessianos':
    2. Ajustar un modelo base (o un modelo de aprendizaje débil, como un árbol) utilizando el conjunto de entrenamiento resolviendo el problema de optimización a continuación:
    3. Actualizar el modelo:
  3. Salida
Remove ads

Aplicaciones de XGBoost

XGBoost es apto para el manejo de relaciones no lineales y su poder predictivo es bueno. Esto lo vuelve un algoritmo eficaz para aplicar a los datos del mercado financiero.[18]

Referencias

Loading content...
Loading related searches...

Wikiwand - on

Seamless Wikipedia browsing. On steroids.

Remove ads