Random Forest
From Wikipedia, the free encyclopedia
Random Forest é un metaalgoritmo de aprendizaxe automática (Machine Learning) deseñado como unha modificación substancial da idea de empaquetado (bagging) que constrúe unha gran colección de árbores sen correlación para posteriormente calcular a súa media. Para a súa aplicación na maioría de problemas, a resolutividade do Random Forest é similar á do algoritmo de empaquetado, coa suma de que son máis sinxelos de adestrar e parametrizar. Como consecuencia, a súa popularidade é alta e desenvólvense en multitude de módulos de aprendizaxe automática.[1]
Random Forest | |
---|---|
Instancia de | algoritmo |
Parte de | algoritmos de comitê de classificação (pt) |
Inventor/a | Leo Breiman (pt) |
Medio usado | árvore de decisão (pt) e aprendizagem por árvores de decisão (pt) |
Descrito pola fonte | |
Descrito pola fonte
| |
[ Wikidata ] |
Definición de Random Forest
A idea principal no metaalgoritmo de empaquetado é o cálculo da media sobre moitos modelos de ruído non distorsionados ou simplificados. As árbores, en informática, son candidatas ideais para emular a idea de empaquetado, posto que capturan complexas interaccións nas estruturas de calquera conxunto de datos dado. Así mesmo medra con suficiente profundidade para evitar calquera distorsión ou simplificación (bias). Sumado a que as árbores adoitan asociarse a grandes cantidades de ruído, benefícianse enormemente da limpeza a través do cálculo da media. Así mesmo, dado que cada árbore xerada por empaquetado ten idéntica distribución, espérase que a media de varios deles achegue os mesmos resultados que a media individual.
A media de variábeis aleatorias, cada unha cunha varianza de σ2 aporta unha varianza total de xσ2.
Random Forest introduciuse baixo está definición por Leo Breiman en 2001, aínda que a maioría das ideas presentábanse dispersas na literatura con anterioridade. Notabelmente Tin Kam Ho en 1995 introduciu o termo, e usouno parcialmente sobre subconxuntos aleatorios de características atopadas en común nun conxunto de datos.
Jerome H. Friedman en 2007 probou que incrementando e calculando a media de mostras de tamaño aproxímase (en consideracións de bias e varianza) á idea de empaquetado, así como usar mostras menores que N reduce a varianza aínda máis (a través do proceso de decorrelación).
Notas
Véxase tamén
Wikiwand - on
Seamless Wikipedia browsing. On steroids.