Cos'è la complessità del modello nell'apprendimento automatico?
A2A: Ci sono molti modi di misurare la complessità di un modello appreso nella ML, e i ricercatori usano questo termine in modi diversi. Ma, molto generalmente, la "complessità del modello" di solito si riferisce al numero di gradi di libertà in un modello appreso, spesso misurato come il numero di pesi o parametri regolabili nell'architettura che fa l'apprendimento. Detto altrimenti, è la dimensionalità dello spazio dei modelli possibili. In un'architettura a rete neurale, la complessità del modello è spesso misurata come il numero di pesi regolabili.
Le persone si preoccupano di questo in parte a causa della spesa per addestrare tutti questi parametri, ma soprattutto per il problema dell'overfitting: Di nuovo, approssimativamente, se si ha un numero molto grande di parametri allenabili e una quantità limitata di dati di allenamento, si può finire con un modello molto complicato che impara i dati di allenamento quasi perfettamente, ma lo fa in un modo che enfatizza ogni sorta di piccoli dettagli che sono idiosincratici - specifici per i particolari esempi nel set di allenamento, ma non ampiamente rappresentativi della popolazione più ampia da cui quei particolari esempi sono stati tratti. Forse tutte le immagini di gatti nel vostro set di allenamento hanno un certo pixel colorato di rosso, o qualcosa del genere.
Questi modelli ottengono buone prestazioni nel set di allenamento ma una scarsa generalizzazione. Un modello meno complesso ("più liscio" in un certo senso) può avere maggiori probabilità di modellare le caratteristiche generali che caratterizzano la popolazione nel suo complesso.
Il problema, naturalmente, è che non tutti i parametri sono creati uguali. Alcuni possono mascherare l'effetto di altri o renderli inefficaci. Ci possono essere meccanismi o metodi di addestramento che gravitano verso il rendere molti dei parametri ridondanti, riducendo il pericolo di over-fitting. E così via.
Questa è una visione molto generale. A questo punto, è necessario leggere un libro o seguire un corso sull'argomento per capire i - ummm... - complessi dettagli di tutto questo.
Un avvertimento: le persone nel campo della ML a volte parlano informalmente della "complessità" di un modello per riferirsi ad altre cose - per esempio, la complessità complessiva dell'architettura (numero di strati, presenza di qualche tipo di ricorrenza o elemento di memoria, presenza di tecniche insolite negli algoritmi di addestramento, modi insoliti di presentare gli input e gli output, e così via. Cioè, la quantità totale di macchinari sferraglianti che lo sperimentatore ha deciso di usare e/o sta cercando di capire.
Articoli simili
- Cos'è un set di dati di allenamento e un set di dati di test nell'apprendimento automatico? Quali sono le regole per selezionarli?
- Cos'è il punteggio F2 nell'apprendimento automatico?
- Qual è la differenza tra modello AR, modello ARMA e modello ARIMA?
- Che rapporto hanno i modelli grafici probabilistici (PGM) con l'apprendimento automatico?