Cos'è un set di dati di allenamento e un set di dati di test nell'apprendimento automatico? Quali sono le regole per selezionarli?
- Vorrei rispondere a questa domanda nel contesto delle Self Driving Cars (SDCs)
- Teoria :
- Un algoritmo di machine learning è un modello matematico che impara a trovare modelli nell'input che gli viene fornito. Una volta che un algoritmo di apprendimento automatico impara i modelli sottostanti ai dati di allenamento, ha bisogno di essere testato su dati nuovi (o dati di test) che non ha mai visto prima, ma che appartengono ancora alla stessa distribuzione dei dati di allenamento.
- Se il tuo modello funziona bene sui dati di test, allora è considerato un modello ML che generalizza il tuo set di dati di interesse.
- Esempio: i DSC hanno bisogno di tre abilità per guidare su strada - Percezione, Pianificazione ed Esecuzione. Consideriamo la percezione (usando immagini di telecamere 2D) e il processo di costruzione del modello intorno ad essa.
- Se un modello di percezione della DSC (diciamo segmentazione semantica) è addestrato sulle strade e le vie di San Francisco, allora quelle immagini sono considerate dati di allenamento. Se questa stessa macchina con lo stesso modello viene poi testata a Londra, allora le immagini ottenute da Londra sono considerate il set di dati di test.
- Si noterà una simile divisione nel dataset Cityscapes dove le cartelle di allenamento e di test hanno immagini di diverse città tedesche/svizzere.
- Un altro modo di vedere la cosa è se hai un mucchio di 10000 immagini grezze che hai fatto annotare (di nuovo per la segmentazione semantica) allora puoi dividere questo dataset in tre parti qui x + y + z = 100% (Dati di allenamento - x%, Dati di convalida - y%, Dati di test - z%)
- Altre risposte hanno già spiegato come la divisione tra x,y e z può essere fatta.
- References
- You can refer my “Self Driving Car Datasets for Semantic Segmentation” blog post. If you download the datasets mentioned in the above article (Eg : CityScapes or Mapillary Vistas), you shall notice separate folders for training and test data.
- Teoria :