QNA > Q > Qual È La Differenza Tra Apprendimento Supervisionato E Apprendimento Per Rinforzo?

Qual è la differenza tra apprendimento supervisionato e apprendimento per rinforzo?

Le risposte dettagliate qui spiegano già la differenza con esempi. Forse le differenze chiave sono solo un paio

  • Passive vs active learning.
    • Nell'apprendimento supervisionato il processo di apprendimento è passivo. Passivo perché il modello impara una mappatura dallo spazio di input a quello di output, senza alterare lo spazio di input come conseguenza del suo apprendimento. Quindi ogni campione dallo spazio di input è
      • indipendente dagli altri campioni di input e
      • la distribuzione di probabilità sottostante da cui i campioni sono tratti sono identici (cioè la stessa distribuzione di probabilità con gli stessi parametri che caratterizzano la distribuzione)
      • Per esempio, ogni immagine in ingresso ad una convnet per un problema di classificazione è indipendente da tutte le altre immagini classificate e prelevata dalla stessa distribuzione di probabilità sottostante che caratterizza lo spazio di input.
    • Nel reinforcement learning, il processo di apprendimento è attivo - l'agente impara interagendo con il suo ambiente cambiando così l'ambiente stesso che osserva. Quindi l'assunzione iid (indipendente e identicamente distribuita) sullo spazio di input che potremmo fare durante l'apprendimento supervisionato non è più valida.
  • Istructive vs ruolo valutativo dell'insegnante.
    • Nell'apprendimento supervisionato, il ruolo dell'insegnante è istruttivo. Per esempio, ogni classificazione di un'immagine, riceve un feedback su quanto corretta/errata fosse quella classificazione (90% gatto, 10% cane ecc.) . L'agente usa questo feedback per ottenere la classificazione corretta nel corso delle iterazioni di addestramento.
    • Al contrario, nel reinforcement learning, il feedback dell'insegnante è valutativo. Per esempio, nel controllo automatico della temperatura di un centro dati con un agente di apprendimento per rinforzo, l'agente non riceve un feedback di correttezza per ogni regolazione della temperatura che fa (se riceve un feedback per tutte le sue azioni). Invece potrebbe ricevere, su base giornaliera per esempio, la quantità di elettricità consumata. Questo feedback da parte dell'insegnante si distingue dalle etichette nell'apprendimento supervisionato, in quanto non solo non è un feedback per ogni regolazione automatica della temperatura, e anche se fosse teoricamente dato un tale feedback, il feedback è un valore di consumo di elettricità - una misura media cumulativa di qualche metrica che è conseguenza dell'effetto dei cambiamenti di temperatura fatti dall'agente.
main-qimg-47a80c548dc547be23f861a0bf909a98

Alex Graves cattura la differenza tra le varie forme di apprendimento lungo questi due assi categorici. La cattura dello schermo è dal suo discorso

Queste differenze sono ciò che forse rende l'apprendimento di rinforzo più difficile dell'apprendimento supervisionato. Un recente discorso (2019) di un ingegnere di Waymo illustra le sfide pratiche di utilizzare anche tutti i chilometri disponibili raccolti dalle auto a guida autonoma per simulare la lunga coda di condizioni limite per la guida autonoma - uno dei quali è la natura non iida dell'input (illustrato da un caso molto bello di un'auto virtuale che segue l'auto reale nell'apprendimento per imitazione in una simulazione - l'auto virtuale incontra situazioni totalmente nuove semplicemente in conseguenza del cambiamento dell'ambiente causato dal movimento dell'auto reale).

Di December Scully

Perché Achille e la tartaruga sono un paradosso? :: Perché alla gente piacciono i giochi noiosi come COD o GTA?
Link utili