Come funziona la perplessità nell'elaborazione del linguaggio naturale?
La perplessità è la misura della probabilità che un dato modello linguistico predica i dati di test. Prendiamo ad esempio,
"Io amo l'NLP."
[math]\displaystyle\prod_{i=1}^n p(w_i) = p(\testo{'NLP'} | \testo{'I'}, \testo{'amore'}) * p(\testo{'amore'} | \testo{'I'}) * p(\testo{'I'})[/math]
Quello che succede è che iniziamo a ottenere valori molto piccoli molto velocemente se abbiamo sequenze più lunghe. Nell'implementazione, il calcolo viene solitamente fatto nello spazio log e poi ritrasformato.
[math]log_2\displaystyle\prod_{i=1}^n p(w_i) = \displaystyle\sum_{i=1}^n log_2p(s_i)[/math]
Dopo aver normalizzato...
[math]l = \dfrac{-1}{N}\displaystyle\sum_{i=1}^n log_2p(s_i)[/math]
Intrasformando...
[math]PP = 2^{frac{-1}{N}{sum_{i=1}^n log_2p(s_i)}[/math]
La perplessità non è un modo definito per valutare un modello linguistico, tuttavia, dice qualcosa sulla compressione del vocabolario.
Nel caso [math]p(\testo{'I', 'amore', 'NLP'}) = 1[/math], che significa che il modello linguistico può riprodurre perfettamente i dati del test, la perplessità è [math]2^0=1[/math]. Nel caso peggiore, se il modello assegna una probabilità di 0, allora [math]log(0) = \infty[/math]. Cosa significano questi valori?
Un modello stupido dice che ogni parola è ugualmente probabile e predice una probabilità uniforme per ogni parametro, 1 / N. La perplessità di un modello stupido è la dimensione del vocabolario, N. Questo non è buono perché le parole non sono ugualmente probabili; certe parole e frasi tendono a raggrupparsi. Se miglioriamo il modello linguistico, la perplessità scende.
Se la dimensione del vocabolario è 10.000 e la nostra perplessità è 100, allora in media, per ogni parola nella sequenza dei dati di test, abbiamo ristretto le nostre opzioni da 10.000 parole a 100.
Articoli simili
- Come iniziare con l'elaborazione del linguaggio naturale
- Qual è la differenza tra linguaggio macchina, linguaggio assembly e linguaggio di alto livello nei computer?
- Cosa sono le tecniche di estrazione delle caratteristiche nell'elaborazione delle immagini?
- Cos'è il sottocampionamento nell'elaborazione dei segnali?