Qual è una spiegazione intuitiva per la funzione log loss?
Intuizione dietro il log loss usando la sua FORMULA :
Il log loss è usato quando abbiamo una risposta {0,1}. Questo è di solito perché quando abbiamo {0,1} di risposta, i migliori modelli ci danno valori in termini di probabilità.
In parole semplici, log loss misura l'INCERTEZZA delle probabilità del vostro modello confrontandole con le etichette vere. Guardiamo da vicino la sua formula e vediamo come misura l'INCERTEZZA.
Ora la domanda è: le vostre etichette di allenamento sono 0 e 1 ma le vostre previsioni di allenamento sono 0,4, 0,6, 0,89, 0,1122 ecc. Quindi come facciamo a calcolare una misura dell'errore del nostro modello? Se classifichiamo direttamente in 1 tutte le osservazioni che hanno valori > 0,5, rischiamo di aumentare l'errore di classificazione. Questo perché può accadere che molti valori con probabilità 0,4, 0,45, 0,49 possano avere un vero valore di 1.
Ecco dove entra in scena il logLoss.
Ora seguiamo da vicino la formula del logLoss. Ci possono essere 4 casi principali per i valori di [math]y_{i}[/math] e [math]p_{i}[/math]
Caso 1 : [math]y_{i} = 1 [/math] , [math]p_{i}[/math] = High , [math] 1 - y_{i} = 0[/math] , [math]1 - p_{i}[/math] = Low
Caso 2 : [math]y_{i} = 1 [/math] , [math]p_{i}[/math] = Basso , [math] 1 - y_{i} = 0[/math] , [math]1 - p_{i}[/math] = Alto
Caso 3 : [math]y_{i} = 0 [/math] , [math]p_{i}[/math] = Basso , [math] 1 - y_{i} = 1[/math] , [math]1 - p_{i}[/math] = Alto
Caso 4 : [math]y_{i} = 0 [/math] , [math]p_{i}[/math] = Alto , [math] 1 - y_{i} = 1[/math] , [math]1 - p_{i}[/math] = Basso
Formula logLoss :
[math]logLoss = \frac{-1}{N} \sum_{i=1}^{N}(y_{i}(log{p_{i}})+(1- {y_{i}})log(1-p_{i}))[/math]
Caso 1:
In questo caso y = 1 e p = alto implica che abbiamo capito bene! Perché il vero valore della risposta concorda con la nostra alta probabilità. Ora guardate bene... l'occorrenza del Caso 1 gonfierà significativamente la somma perché, Yi * log (Pi) sarebbe alto e simultaneamente l'altro termine della somma sarebbe zero poiché 1 - Yi = 1 - 1 = 0. Quindi più occorrenze del caso 1 gonfierebbero la somma e di conseguenza gonfierebbero la media.
Nota anche che questo è possibile perché se Pi > Pi-1 , log (Pi) > log (Pi-1)
Caso 2:
In questo caso y = 1 e p = basso. Questo è un caso totalmente indesiderabile perché la nostra probabilità che Y sia 1 è bassa ma il vero valore di Y è ancora 1. Ora, guardando di nuovo la formula da vicino, il secondo termine nella sommatoria sarebbe zero poiché 1- yi sarebbe zero. E poiché p = basso, Yi * log (Pi) non gonfierebbe la somma quanto il caso 1. Quindi il Caso 2 in definitiva non influenzerebbe molto la somma.
Similmente le occorrenze del Caso 3 gonfierebbero la somma in modo significativo e le occorrenze del Caso 4 no.
Ora tornando alla domanda principale, come fa il log loss a misurare l'INCERTEZZA del tuo modello? La risposta è semplice. Supponiamo di avere più casi 1 e casi 3, allora la somma all'interno della formula logloss sarebbe maggiore (tenderebbe ad aumentare). Questo implicherebbe che anche la media (/N) tenderebbe ad aumentare e sarebbe sostanzialmente più grande rispetto a quello che sarebbe stato se si fossero aggiunti i casi 2 e 4. Quindi ora questo valore è il più grande possibile nel Caso1s e nel Caso3s, il che indica una buona previsione. Se lo moltiplichiamo per (- 1), renderemo il valore il più piccolo possibile. Questo significherebbe intuitivamente: più piccolo è il valore, migliore è il modello, cioè più piccolo è il logloss, migliore è il modello, cioè più piccola è l'INCERTEZZA, migliore è il modello.
Questo era il più semplice possibile.