Perché la CNN è usata per la classificazione delle immagini e perché non altri algoritmi?
Ci sono un sacco di algoritmi che le persone hanno usato per la classificazione delle immagini prima che la CNN diventasse popolare. Le persone erano solite creare caratteristiche dalle immagini e poi alimentare quelle caratteristiche in qualche algoritmo di classificazione come SVM. Alcuni algoritmi usavano anche i valori a livello di pixel delle immagini come vettore di caratteristiche. Per fare un esempio, si potrebbe addestrare un SVM con 784 caratteristiche, dove ogni caratteristica è il valore del pixel di un'immagine 28x28.
Perciò perché le CNN e perché funzionano così bene?
Le CNN possono essere pensate come estrattori automatici di caratteristiche dall'immagine. Mentre se uso un algoritmo con un vettore di pixel perdo molta interazione spaziale tra i pixel, una CNN usa effettivamente le informazioni sui pixel adiacenti per ricampionare efficacemente l'immagine prima con la convoluzione e poi usa uno strato di predizione alla fine.
Questo concetto è stato presentato per la prima volta da Yann le cun nel 1998 per la classificazione delle cifre dove ha usato un singolo strato di convoluzione. È stato poi reso popolare da Alexnet nel 2012, che ha utilizzato più strati di convoluzione per raggiungere lo stato dell'arte su imagenet. Questo li ha resi un algoritmo di scelta per le sfide di classificazione delle immagini d'ora in poi.
Articoli simili
- Qual è la differenza tra CNN e R-CNN?
- Quali sono i 10 algoritmi che si devono conoscere per risolvere la maggior parte dei problemi di algoritmi?
- Perché la "velocità della pellicola" o ISO è ancora usata quando la pellicola non è usata nella fotografia digitale?
- Ci sono buone alternative più economiche alla classificazione PSA delle carte da baseball?