Random forest

Random forest (o random forests) també coneguts com '"Boscos Aleatoris"' son una combinació d'arbres predictors en estadística en el qual cada arbre depèn dels valors d'un vector aleatori provat independentment i amb la mateixa distribució per a cadascun d'aquests. És una modificació substancial de bagging que construeix una llarga col·lecció d'arbres no correlacionats fent una mitjana de tots els seus valors.^[1]^[2]

L'algorisme per induir un random forest va ser desenvolupat per Leo Breiman^[3] i Adele Cutler. El terme apareix en la primera proposta de random decision forests, formulada per Tin Kam Ho de Bell Labs el 1995. El mètode combina la idea de bagging de Breiman i la selecció aleatòria d'atributs, introduïda independentment per Ho, Amit i Geman, per construir una col·lecció d'arbres de decisió amb variació controlada.^[4]^[5]

La selecció d'un subconjunt aleatori d'atributs és un exemple del mètode random subspace, el que, segons la formulació de Ho, és una manera de dur a terme la discriminació estocàstica proposada per Eugenio Kleinberg.^[6]

En molts problemes el rendiment de l'algorisme random forest és molt similar a la del boosting, i és més simple d'entrenar i ajustar. Com a conseqüència, el random forest és popular i àmpliament utilitzat per milions de programadors i enginyers en la programació d'aprenentatge automàtic.

[1]

[2]

[3]

[4]

[5]

[6]