L'Echo Show e altri dispositivi abilitati ad Alexa fanno traduzioni dal vivo?
Non sono del tutto sicuro di cosa intendi per "traduzione dal vivo", ma farò un tentativo con uno dei due scenari.
- A Alexa è in grado di tradurre l'inglese in spagnolo (con un ritardo). Sì, più o meno. Chiedendo ad Alexa "qual è la parola spagnola per "X"", o "come si dice "x" in spagnolo" si otterrà probabilmente un risultato, ma la sua precisione sarà molto variabile perché le lingue spesso non traducono ciò che si intende o il contesto di ciò che viene detto 1:1. In genere c'è un sacco di conoscenza culturale necessaria per tradurre ciò che si intende (rispetto a ciò che si è detto), in particolare con il modo in cui Alexa fa "speech to text" - che è un diverso tipo di traduzione, e la seconda parte della risposta.
- Come fa Alexa a "tradurre", capire e rispondere a ciò che le sto chiedendo? Questo è un po' più complesso e ha più parti (note come "servizi" nel linguaggio nerd).
Lasciate che vi fornisca un esempio, considerate il seguente scenario, passo dopo passo*.- Parte di come funziona Alexa è capire che il sistema è "sempre in ascolto" per il suo nome (o la parola wake) in un ciclo di 15 secondi, localmente sul dispositivo**
- Dici "Alexa, che ora è?"
- Il dispositivo rileva la parola di sveglia e accende il cerchio blu per indicare che ha sentito "Alexa", e invia gli ultimi 15 secondi di audio da prima di aver sentito la parola e trasmette l'audio durante il tempo in cui la luce blu è attiva a un servizio di trascrizione nel cloud alimentato dal machine learning.
- Mentre il flusso è aperto, il servizio cloud scompone i suoni che compongono le parole (noti come fonemi) e tenta di indovinare/prevedere i prossimi possibili fonemi che tipicamente seguono quel primo fonema per prevedere quale sia la parola, e quali possano essere le probabili parole successive, finché l'algoritmo è "abbastanza sicuro" (circa l'80%) di aver sentito correttamente ciò che hai detto. Quei suoni sono tradotti (o trascritti) in una stringa di testo (una "stringa" è una serie di caratteri come una frase o un'espressione che conta anche gli spazi).
- Mentre sta determinando quella stringa, un altro servizio sta leggendo la stringa in tempo reale per determinare ciò che l'oratore potrebbe avere intenzione di dire (questo è noto come "intento"). Sta cercando parole chiave speciali come "play", "ask", "what", "how", "why", "turn on", "where", "buy" ecc. per capire (analizzare) a quale dominio Alexa inviare tale intenzione. È utile pensare a questi domini come cestini di posta, perché in questa fase Alexa si comporta come un dispatcher o smistatore di posta, inviando gli intenti al dominio che è abbastanza (di nuovo, circa l'80%) sicuro che dovrebbe andare a.
Per esempio, quando Alexa sente "play" invia l'intento al dominio dei media, "tell/ask" va a 3rd party skills, "buy" va allo shopping. In questo caso il "cosa" in "che ora è" va al dominio delle informazioni (un altro insieme di servizi) che capiscono cosa fare con il resto della dichiarazione. Nell'informazione, può guardare l'ora, il tempo, cercare un fatto su Wikipedia, ecc. Può anche decidere che la domanda è più legata alle notizie, e chiedere a una varietà di fonti di notizie e cercare di fare il giusto abbinamento. - Una volta che il servizio ha determinato ciò che è stato detto (o il suo livello di fiducia ha raggiunto la soglia dell'80%), il dispositivo spegne il flusso audio, e la luce blu si anima mentre Alexa sta "pensando" (elaborando la risposta più appropriata).
- "Che ora è?" è il tipo di intento più facile da capire per Alexa, quindi dopo aver inviato l'intento all'informazione (perché ha sentito "cosa"), cerca l'ora nel vostro fuso orario e invia l'azione a un altro servizio con l'ora giusta.
- Il servizio successivo formula le parole da inserire nella risposta da una varietà di risposte possibili. Alexa di solito ha un mucchio di modi diversi per rispondere a una domanda, specialmente con invocazioni molto comuni. Guarda quanto spesso e quanto recentemente ha usato alcune delle risposte a questa domanda da questo dispositivo/persona (ora può distinguere tra le diverse persone della famiglia). Alcuni esempi:
- "Sono le 17:30"
- "In questo momento, sono le 17:50"
- "Nella (tua città), sono le 17:30"
- "17:30"
- "Sono le 17:30 di sera"
L'elenco continua, ma avete capito. Il motivo è che se Alexa desse la stessa risposta esattamente nello stesso modo ogni volta, suonerebbe meno spontaneo e umano.
- La luce blu sul dispositivo passa a un anello blu fisso e stroboscopico. Alexa ha determinato come risponderà e si sta preparando a "parlare" (inviare la risposta audio).
- Una volta che la risposta è stata determinata, quella stringa (il suo testo immobile), viene inviata ad UN ALTRO servizio, che è addestrato a guardare quella risposta e includere la giusta inflessione, enfasi, iniettare brevi pause, anche per renderla più umana.
- Finalmente, quel servizio rende (traduce) quelle parole basate sul testo, di nuovo in suoni, e invia quel flusso audio al dispositivo
- L'anello blu cambia la temperatura della sua strobo e comincia a riprodurre la risposta, quando è completata, il flusso o si spegne (e l'anello blu crolla), o chiede una "domanda di follow up" o una raccomandazione per provare qualcosa di nuovo, preferibilmente sull'argomento con cui si è risposto.
- L'interazione è completa.
Whew! È molto, vero? Ora considerate quante cose Alexa sbaglia, e quante cose non può fare, o non sa come rispondere, e comincerete a capire quanto incredibilmente complesso e flessibile sia il cervello umano. Lo stato attuale dell'"intelligenza artificiale" è in realtà solo dispositivi "stupidi" leggermente più intelligenti. Il cane medio di famiglia è migliaia di volte più intelligente e capace. Alexa è fondamentalmente un chat bot su steroidi. Risponde con risposte che sono state scritte da persone, usando software e logica anch'essi scritti da persone.
È la ragione principale per cui Alexa non può facilmente "tradurre" il linguaggio umano in linguaggio umano in modo molto accurato, ma un cane può capire comandi come "sit" (o siéntate) sia in inglese che in spagnolo.
Spero che una di queste due risposte abbia risposto alla tua domanda.
*questa è eccessivamente semplificata, ma cattura le basi
** Almeno questo era il caso quando ho lavorato su Alexa nel 2015, le cose potrebbero essere cambiate e altro potrebbe essere condiviso con Amazon da allora, non ho una conoscenza specifica di ciò che è cambiato.