Quali sono i vantaggi/svantaggi di usare Gradient Boosting rispetto a Random Forests?
Entrambi sono metodi di apprendimento ensemble e predicono (regressione o classificazione) combinando i risultati dei singoli alberi. Differiscono nel modo in cui gli alberi sono costruiti - l'ordine e il modo in cui i risultati sono combinati.
Le foreste casuali addestrano ogni albero indipendentemente, usando un campione casuale dei dati. Questa casualità aiuta a rendere il modello più robusto di un singolo albero di decisione, e meno probabile che si adatti troppo ai dati di allenamento. Ci sono tipicamente due parametri in RF - il numero di alberi e il numero di caratteristiche da selezionare ad ogni nodo.
GBTs costruiscono alberi uno alla volta, dove ogni nuovo albero aiuta a correggere gli errori fatti dall'albero precedentemente formato. Con ogni albero aggiunto, il modello diventa ancora più espressivo. Ci sono tipicamente tre parametri - numero di alberi, profondità degli alberi e tasso di apprendimento, e ogni albero costruito è generalmente poco profondo.
L'addestramento GBDT generalmente richiede più tempo a causa del fatto che gli alberi sono costruiti in modo sequenziale. Tuttavia, i risultati di benchmark hanno dimostrato che i GBDT sono migliori apprendisti delle Foreste casuali.
Una panoramica delle differenze e alcuni risultati di benchmark in termini di tasso di errore e tempo di addestramento sono forniti nel link sottostante:
Foreste casuali e Boosting in MLlib
Anche se può sembrare che le GBDT siano migliori delle foreste casuali, le GBDT sono inclini all'overfitting, tuttavia ci sono strategie per superare lo stesso e costruire alberi più generalizzati usando una combinazione di parametri come il tasso di apprendimento (shrinkage) e la profondità dell'albero. Generalmente i due parametri sono tenuti sul lato inferiore per consentire un apprendimento lento e una migliore generalizzazione.
Qui c'è una descrizione molto dettagliata con derivazioni matematiche ecc. dei GBM
Pagina su washington.edu
Spero che questo aiuti.