Cos'è l'apprendimento a zero colpi?
E se vi mostro l'immagine di un animale, dato che non avete mai visto quell'animale prima, potete indovinare il nome dell'animale? Forse, se avete letto da qualche parte di quel particolare animale. Diciamo che mostro un'immagine di zebra a un bambino che non ha mai visto una zebra ma ha visto un cavallo e anche a lei è stato insegnato che una zebra assomiglia a un cavallo ma con le strisce. Può identificarla ora? Molto probabilmente sì!
Similmente, la nostra macchina può anche essere in grado di predire l'etichetta di un'immagine o di un oggetto che non è presente nei dati di allenamento. È possibile?
Se vi siete occupati di compiti di elaborazione del linguaggio naturale, potreste aver sentito parlare di word-embedding. Il Word-Embedding è semplicemente una rappresentazione di una parola sotto forma di vettore. Se due parole hanno significati simili, anche i loro vettori di embedding saranno simili. Un word-embedding è un vettore, quindi ha più dimensioni. Ogni dimensione rappresenta una caratteristica della parola. Consideriamo una parola incorporata di tre dimensioni (anche se in pratica l'incorporazione varia da 100 a 300 vettori dimensionali). Lasciamo che queste tre dimensioni rappresentino caratteristiche come strisce, animalità e bianchezza. Così per una tigre, sarebbe [1, 1, 0] cioè una tigre ha delle strisce, è un animale ma non è di colore bianco e per un coniglio sarebbe [0, 1, 1] come un coniglio non ha strisce, ma è un animale e di colore bianco.
Quindi tornando alla nostra domanda di identificare un'immagine mai vista prima di una zebra, ma avendo dato in pasto un'immagine di una tigre e di un coniglio al nostro algoritmo di apprendimento, possiamo fare in modo che il nostro algoritmo di apprendimento CNN impari a rilevare anche le caratteristiche delle parole-embeddings come le strisce, l'animalità e il bianco nelle immagini. Dobbiamo solo sostituire l'etichetta dell'immagine con la sua parola-embedding durante l'addestramento. E ora, quando forniamo un'immagine di una zebra a questo modello, queste caratteristiche possono essere estratte dall'immagine, verrà generata una parola-incorporazione per quell'immagine e la parola-incorporazione più vicina nel nostro dizionario a questa parola-incorporazione generata sarà molto probabilmente di una zebra, e quindi possiamo predire l'etichetta in modo appropriato.
Quindi siamo stati in grado di identificare un'immagine di una zebra che non avevamo nei nostri dati di allenamento, ma avevamo una parola-incorporazione per essa. I word-embeddings pre-addestrati possono essere scaricati e utilizzati con il modello CNN di riconoscimento degli oggetti.
Questa tecnica di classificazione non standard è conosciuta come apprendimento a zero colpi. La tecnica ZSL è ancora agli inizi ed è relativamente un argomento attivo nella ricerca.
Articoli simili
- Come commercializzare le tue applicazioni Android quando hai zero o quasi zero budget
- Qual è la differenza tra apprendimento supervisionato e apprendimento per rinforzo?
- Nel golf, come posso aiutare mio figlio adolescente ad accettare i cattivi colpi invece di lanciare la mazza?
- Dai sempre il 20% di mancia ai parrucchieri, anche per 300 dollari di colpi di sole?