Perché la normalizzazione dei lotti aiuta? Artboard
Naturalmente, le reti neurali, comprese le reti profonde, richiedono un'attenta regolazione dell'inizializzazione dei pesi e dei parametri di apprendimento. La normalizzazione dei lotti aiuta a rilassarli un po'.
Problema dei pesi:
- Qualunque sia l'inizializzazione dei pesi, sia essa casuale o scelta empiricamente, essi sono molto lontani dai pesi appresi. Consideriamo un mini-batch, durante le epoche iniziali, ci saranno molti outlier (pesi lontani da quelli richiesti) in termini di attivazioni di caratteristiche richieste.
- La rete neurale (profonda) di per sé è mal posta, cioè una piccola perturbazione negli strati iniziali, porta a un grande cambiamento negli strati successivi.
Durante la propagazione inversa, questi fenomeni causano distrazione ai gradienti, cioè i gradienti devono compensare gli outlier, prima di imparare i pesi per produrre gli output richiesti. Questo porta alla richiesta di ulteriori epoche per convergere.
La normalizzazione dei lotti regolarizza questi gradienti dalla distrazione agli outlier e il flusso verso l'obiettivo comune (normalizzandoli) all'interno di un intervallo del mini-batch. Il risultato è l'accelerazione del processo di apprendimento.
Problema del tasso di apprendimento:
Generalmente, i tassi di apprendimento sono tenuti piccoli, in modo tale che solo una piccola parte dei gradienti corregge i pesi, la ragione è che i gradienti per le attivazioni outlier non dovrebbero influenzare le attivazioni apprese. Con la normalizzazione dei lotti, queste attivazioni anomale sono ridotte e quindi tassi di apprendimento più alti possono essere usati per accelerare il processo di apprendimento.