In che modo GloVe è diverso da word2vec?
Grazie per l'A2A. C'è già una buona risposta di Stephan Gouws. Aggiungerò il mio punto.
- In word2vec, i modelli Skipgram cercano di catturare la co-occorrenza una finestra alla volta
- In Glove cerca di catturare i conteggi delle statistiche generali quanto spesso appare.
Word2Vec
L'idea principale dietro è che si allena un modello sul contesto su ogni parola, quindi parole simili avranno rappresentazioni numeriche simili.
Proprio come una normale rete neurale feed-forward densamente connessa (NN) dove si ha un insieme di variabili indipendenti e una variabile dipendente che si sta cercando di predire, si rompe prima la frase in parole (tokenize) e si crea un numero di coppie di parole, a seconda della dimensione della finestra. Così una delle combinazioni potrebbe essere una coppia di parole come ('New','York'), dove il gatto è la variabile indipendente (X) e 'purr' è la variabile dipendente target (Y) che stiamo cercando di predire.
Inseriamo 'cat' nella NN attraverso uno strato di embedding inizializzato con pesi casuali, e lo passiamo attraverso lo strato softmax con lo scopo ultimo di predire 'purr'. Il metodo di ottimizzazione come SGD minimizza la funzione di perdita "(parola obiettivo | parole del contesto)" che cerca di minimizzare la perdita di prevedere le parole obiettivo date le parole del contesto. Se facciamo questo con un numero sufficiente di epoche, i pesi nello strato di embedding rappresenterebbero alla fine il vocabolario di vettori di parole, che sono le "coordinate" delle parole in questo spazio vettoriale geometrico.
GLOVE
GLOVE funziona in modo simile a Word2Vec. Mentre potete vedere sopra che Word2Vec è un modello "predittivo" che predice il contesto data la parola, GLOVE impara costruendo una matrice di co-occorrenza (parole X contesto) che fondamentalmente conta quanto spesso una parola appare in un contesto. Dal momento che sarà una matrice gigantesca, fattorizziamo questa matrice per ottenere una rappresentazione di dimensioni inferiori. Ci sono un sacco di dettagli che vanno in GLOVE ma questa è l'idea di massima.
Fonte - Do Pretrained Embeddings Give You The Extra Edge?
Non si può saltare questa risorsa aggiungendo nelle risposte un quaderno informativo per Word Embeddings
Articoli simili
- Quali sono le principali differenze tra le incorporazioni di parole di ELMo, BERT, Word2vec e GloVe?
- Qual è la differenza principale tra word2vec e fastText?
- Un diverso sistema operativo per smartphone significa un diverso tipo di utente? IOS vs Ubuntu Touch vs Windows Phone vs Android
- Quanto è pratico il concetto di LG Wing? In che modo è diverso dagli altri smartphone?