QNA > S > Siri Può Capire La Sua Stessa Voce?

Siri può capire la sua stessa voce?

E' un esperimento interessante da provare -- ma teoricamente dovrebbe funzionare male.

Il riconoscimento automatico del parlato (ASR), o speech-to-text, è addestrato sulla base del riconoscimento dei modelli del parlato umano. Sta cercando di trovare la migliore corrispondenza tra una serie sconosciuta di segnali acustici e una lista di combinazioni di sequenze accettabili di quei suoni per una data lingua. Sta predicendo ciò che è più probabile che sia corretto.

La sintesi vocale, o text-to-speech (TTS), funziona su principi completamente diversi. Generalmente non cerca di predire nulla, in realtà, dato che tutto il testo è lì. (Anche se deve prendere delle decisioni, come se "St." si pronuncia "street" o "saint", e se "Houston" si pronuncia come la città in Texas o la strada a NYC). Sta assemblando un flusso di suoni e seguendo diverse regole per cercare di rendere quel suono il più umano possibile. Il TTS migliora di anno in anno, ma è ancora un po' innaturale, come vi direbbe chiunque ascolti Siri.

L'unica cosa che entrambi possono condividere è lo stesso lessico o vocabolario; cioè, avere un dizionario di parole e sapere come pronunciarle. Stanno lavorando sullo stesso manuale, se volete. Ma a parte questo, l'ASR funziona indipendentemente dal TTS, e l'uso dell'input TTS a un sistema ASR addestrato su modelli vocali di persone reali avrà un tasso di errore più alto che per il discorso umano. (Teoricamente, almeno.)

Di Lelia

Articoli simili

Le app scanner della polizia sono considerate legali o illegali? :: Come creare scorciatoie su un iPhone per automatizzare i compiti