Come potrei scegliere il valore del decadimento del peso per la regolarizzazione della rete neurale?
Come ogni iperparametro, si sceglie il valore che dà le migliori prestazioni (ad esempio la precisione) su un set di dati tenuto. I passi sono i seguenti:
- Decidere un intervallo di valori su cui provare. Diciamo che si decide di provare 5 valori: 0.001, 0.01, 0.1, 1, e 10.
- Per ogni possibile valore, addestra la rete sul set di allenamento con quel valore come valore di decadimento del peso.
- Una volta addestrata, valuta la rete su un set di dati non disponibile. Questo set di dati NON dovrebbe essere lo stesso usato per l'allenamento. Prendi nota delle prestazioni della rete (dipende dal compito, nella classificazione potresti misurare l'accuratezza, altri compiti potrebbero avere una misura più adatta).
- Ora hai 5 reti addestrate con ogni possibile valore di decadimento dei pesi nella tua lista e hai la misura delle prestazioni per ciascuna. Scegliete una rete con la migliore performance. Il suo valore di decadimento del peso è quello che dovresti usare per l'addestramento della rete finale (usando sia i dati di addestramento che quelli di mantenimento).
Questa strategia è comunemente chiamata ricerca a griglia, cioè stai cercando la migliore impostazione degli iperparametri da una griglia di valori. Un'altra strategia molto popolare e spesso migliore è la ricerca casuale: invece di scegliere la griglia di valori manualmente (passo 1 sopra), si fissa una distribuzione di probabilità per ogni iperparametro (per esempio una distribuzione uniforme) e si prelevano dei campioni da essa. Questi campioni sono ciò che si usa per il passo 2-4. Si noti che, indipendentemente dalla strategia, è necessario avere almeno 2 set di dati: set di allenamento e set di mantenimento (a volte chiamato set di validazione/sviluppo). E' essenziale scegliere il miglior valore dell'iperparametro (ad esempio il valore del decadimento dei pesi, il tasso di abbandono) che produca le migliori prestazioni su questo set di mantenimento, NON il set di allenamento su cui hai addestrato la rete. In caso contrario, si otterrebbe generalmente un valore di iperparametro che porta la rete a sovrastimare i dati di allenamento.
Articoli simili
- Qual è la spiegazione formale del perché il modello avversario come l'attacco di un pixel funziona contro la rete neurale?
- Come vengono impiegati di solito i modelli di rete neurale?
- Perché non posso perdere più peso e la mia cima di muffin anche se seguo tutto il possibile per perdere peso (leggere la descrizione)?
- Camminare aiuta a perdere peso? Se sì, allora quanto si dovrebbe camminare? Quanto tempo ci vorrà per perdere peso semplicemente camminando?