Siri può capire la sua stessa voce?
E' un esperimento interessante da provare -- ma teoricamente dovrebbe funzionare male.
Il riconoscimento automatico del parlato (ASR), o speech-to-text, è addestrato sulla base del riconoscimento dei modelli del parlato umano. Sta cercando di trovare la migliore corrispondenza tra una serie sconosciuta di segnali acustici e una lista di combinazioni di sequenze accettabili di quei suoni per una data lingua. Sta predicendo ciò che è più probabile che sia corretto.
La sintesi vocale, o text-to-speech (TTS), funziona su principi completamente diversi. Generalmente non cerca di predire nulla, in realtà, dato che tutto il testo è lì. (Anche se deve prendere delle decisioni, come se "St." si pronuncia "street" o "saint", e se "Houston" si pronuncia come la città in Texas o la strada a NYC). Sta assemblando un flusso di suoni e seguendo diverse regole per cercare di rendere quel suono il più umano possibile. Il TTS migliora di anno in anno, ma è ancora un po' innaturale, come vi direbbe chiunque ascolti Siri.
L'unica cosa che entrambi possono condividere è lo stesso lessico o vocabolario; cioè, avere un dizionario di parole e sapere come pronunciarle. Stanno lavorando sullo stesso manuale, se volete. Ma a parte questo, l'ASR funziona indipendentemente dal TTS, e l'uso dell'input TTS a un sistema ASR addestrato su modelli vocali di persone reali avrà un tasso di errore più alto che per il discorso umano. (Teoricamente, almeno.)
Articoli simili
- Come capire se il tuo cellulare è intercettato dalla polizia? Come capire se ci sono telecamere a casa tua, o se sei sorvegliato
- Come ha fatto Susan Bennett a sapere di essere la voce di Siri solo dopo essere stata riconosciuta da un amico?
- C'è qualche convertitore online da voce attiva a voce passiva?
- In quale ordine dovrei guardare i film di Captain America per capire la sua vita e il suo rapporto con Bucky fino ai film più recenti?