QNA > I > In Che Modo Glove È Diverso Da Word2Vec?

In che modo GloVe è diverso da word2vec?

Grazie per l'A2A. C'è già una buona risposta di Stephan Gouws. Aggiungerò il mio punto.

In word2vec, i modelli Skipgram cercano di catturare la co-occorrenza una finestra alla volta
In Glove cerca di catturare i conteggi delle statistiche generali quanto spesso appare.

Word2Vec

L'idea principale dietro è che si allena un modello sul contesto su ogni parola, quindi parole simili avranno rappresentazioni numeriche simili.

Proprio come una normale rete neurale feed-forward densamente connessa (NN) dove si ha un insieme di variabili indipendenti e una variabile dipendente che si sta cercando di predire, si rompe prima la frase in parole (tokenize) e si crea un numero di coppie di parole, a seconda della dimensione della finestra. Così una delle combinazioni potrebbe essere una coppia di parole come ('New','York'), dove il gatto è la variabile indipendente (X) e 'purr' è la variabile dipendente target (Y) che stiamo cercando di predire.

Inseriamo 'cat' nella NN attraverso uno strato di embedding inizializzato con pesi casuali, e lo passiamo attraverso lo strato softmax con lo scopo ultimo di predire 'purr'. Il metodo di ottimizzazione come SGD minimizza la funzione di perdita "(parola obiettivo | parole del contesto)" che cerca di minimizzare la perdita di prevedere le parole obiettivo date le parole del contesto. Se facciamo questo con un numero sufficiente di epoche, i pesi nello strato di embedding rappresenterebbero alla fine il vocabolario di vettori di parole, che sono le "coordinate" delle parole in questo spazio vettoriale geometrico.

GLOVE

GLOVE funziona in modo simile a Word2Vec. Mentre potete vedere sopra che Word2Vec è un modello "predittivo" che predice il contesto data la parola, GLOVE impara costruendo una matrice di co-occorrenza (parole X contesto) che fondamentalmente conta quanto spesso una parola appare in un contesto. Dal momento che sarà una matrice gigantesca, fattorizziamo questa matrice per ottenere una rappresentazione di dimensioni inferiori. Ci sono un sacco di dettagli che vanno in GLOVE ma questa è l'idea di massima.

Fonte - Do Pretrained Embeddings Give You The Extra Edge?

Non si può saltare questa risorsa aggiungendo nelle risposte un quaderno informativo per Word Embeddings

Di Ress

Articoli simili

Cosa sta prendendo così tanto del mio storage su Android? :: Le app cancellate dal telefono contano ancora come memoria del telefono?