QNA > C > Come Funziona La Perplessità Nell'elaborazione Del Linguaggio Naturale?

Come funziona la perplessità nell'elaborazione del linguaggio naturale?

La perplessità è la misura della probabilità che un dato modello linguistico predica i dati di test. Prendiamo ad esempio,

"Io amo l'NLP."

[math]\displaystyle\prod_{i=1}^n p(w_i) = p(\testo{'NLP'} | \testo{'I'}, \testo{'amore'}) * p(\testo{'amore'} | \testo{'I'}) * p(\testo{'I'})[/math]

Quello che succede è che iniziamo a ottenere valori molto piccoli molto velocemente se abbiamo sequenze più lunghe. Nell'implementazione, il calcolo viene solitamente fatto nello spazio log e poi ritrasformato.

[math]log_2\displaystyle\prod_{i=1}^n p(w_i) = \displaystyle\sum_{i=1}^n log_2p(s_i)[/math]

Dopo aver normalizzato...

[math]l = \dfrac{-1}{N}\displaystyle\sum_{i=1}^n log_2p(s_i)[/math]

Intrasformando...

[math]PP = 2^{frac{-1}{N}{sum_{i=1}^n log_2p(s_i)}[/math]

La perplessità non è un modo definito per valutare un modello linguistico, tuttavia, dice qualcosa sulla compressione del vocabolario.

Nel caso [math]p(\testo{'I', 'amore', 'NLP'}) = 1[/math], che significa che il modello linguistico può riprodurre perfettamente i dati del test, la perplessità è [math]2^0=1[/math]. Nel caso peggiore, se il modello assegna una probabilità di 0, allora [math]log(0) = \infty[/math]. Cosa significano questi valori?

Un modello stupido dice che ogni parola è ugualmente probabile e predice una probabilità uniforme per ogni parametro, 1 / N. La perplessità di un modello stupido è la dimensione del vocabolario, N. Questo non è buono perché le parole non sono ugualmente probabili; certe parole e frasi tendono a raggrupparsi. Se miglioriamo il modello linguistico, la perplessità scende.

Se la dimensione del vocabolario è 10.000 e la nostra perplessità è 100, allora in media, per ogni parola nella sequenza dei dati di test, abbiamo ristretto le nostre opzioni da 10.000 parole a 100.

Di Laughry

Dove posso guardare GoggleBox Australia online? :: Come può un poliziotto dire se stai usando il tuo cellulare mentre guidi?
Link utili