Google ha intenzione di rilasciare la funzione Live Caption ad ogni telefono Android 10, o è solo per i dispositivi Pixel?
La Live Caption ha debuttato per la prima volta nei dispositivi Pixel e nella linea Samsung Galaxy S20. Ma questa funzione è di fatto integrata in Android stesso. Ora, questo significherebbe che 'Live caption' alla fine si farebbe strada nella maggior parte dei telefoni là fuori, compreso quello che stai usando!
Cos'è 'Live caption'?
Considera le seguenti situazioni:
- Sei su un treno con persone intorno a te e non hai le tue cuffie con te.
- Stai guardando un video che è in una lingua che non capisci!
- Stai solo controllando qualcosa di discreto!
Live caption ti permette di vedere in tempo reale le didascalie o i sottotitoli per i tuoi video, podcast o anche note vocali senza inviare alcuna informazione a Google! Questa funzione è utile in tutti gli scenari che ho menzionato prima ed è anche piuttosto utile per i non udenti, il che la rende una caratteristica fantastica. In un prossimo futuro, 'live caption' potrà anche tradurre le didascalie generate in qualsiasi lingua in tempo reale, il che vi aiuterà a guardare i video indipendentemente dal fatto che conosciate la lingua o meno.
Come usare 'Live caption'?
- Premere il pulsante del volume su o giù.
- Una volta che l'indicatore del volume appare sullo schermo ci sarà un pulsante sotto di esso con l'icona delle didascalie che può essere premuto per attivarlo.
- Se non trovi il pulsante sotto l'indicatore del volume, puoi andare nelle impostazioni, poi vai su accessibilità e poi su 'live caption'.
- Puoi trovare l'interruttore per attivare le didascalie dal vivo qui insieme ad altre opzioni come 'lingua', 'bestemmie' e così via.
Se non trovi l'opzione didascalie dal vivo nelle impostazioni, purtroppo, non è ancora disponibile per il tuo telefono. Ma poi, sarà presto disponibile per la maggior parte dei telefoni o si può installare una ROM personalizzata per usarla.
Come funziona la 'Live caption'?
La sottotitolazione è una sottocategoria di 'elaborazione del linguaggio naturale', che è il ramo della scienza che si occupa dell'interazione tra un umano e un computer. Vedete, noi umani veniamo al mondo con la capacità innata di interagire con altri esseri umani perché siamo senzienti. Supponiamo che abbiamo bisogno di interagire con gli altri scrivendo messaggi e passandoli a loro! Sarebbe una vera sofferenza e questo è il modo in cui interagiamo con i computer finora! È molto più facile parlare con loro.
Così l'elaborazione del linguaggio naturale cerca di risolvere questo problema usando tre grandi categorie.
- 'riconoscimento vocale'e 'speech to text'si occupano di capire le parole pronunciate e convertirle in testo. Ad oggi, il riconoscimento vocale funziona sulla base della catena di Markov nascosta che prende la forma d'onda audio grezza presente nel video o nel podcast, poi la taglia in piccoli pezzi e cerca di identificare i 'Fonemi' in ognuno di questi pezzi. 'Fonemi' sono il suono elementare di qualsiasi lingua che può essere combinato per creare qualsiasi parola in quella lingua. Per esempio, si dice che la lingua inglese contenga circa 40 'Fonemi'. L'algoritmo poi confronta le combinazioni di fonemi tritati con le parole che ci sono nella sua libreria per convertirle in testo. Per esempio, se dico la parola "STUFF", la scheda audio converte il segnale analogico dal microfono in un segnale digitale, e poi lo taglia in pezzi più piccoli per trovare i 'Fonemi' che in questo caso sono "ST", "UH" e "FF". Poi l'algoritmo cerca quattro parole che hanno questi tre fonemi etichettati.
- L'analisi del testo è la parte in cui il computer cerca di capire il testo generato. Questa fase è piuttosto importante perché interpretare le lingue senza capire il contesto può essere molto difficile. Considerate le frasi "Lo so" e "Ho detto di no". Queste frasi hanno entrambe il suono "no", ma nella prima frase è "K-N-O-W" e nella seconda è "N-O", che hanno significati drasticamente diversi Per capire la semantica, l'algoritmo usa la tecnica 'N-gram', che è fondamentalmente guardare le parole adiacenti per qualsiasi parola per prevedere quella particolare parola. Per esempio, consideriamo una frase che ha il suono "pioggia". Se quella frase contiene altre parole come 'tuono' e 'fulmine' il suono "pioggia" è probabilmente il nostro "R-A-I-N", mentre se quella frase contiene altre parole come 'cavallo' e 'cavallo', il "rein" in quella frase è probabilmente "R-E-I-N". Questo è il motivo per cui potete vedere Google cambiare continuamente ciò che gli viene detto!
- 'Text to speech' converte il testo di risposta in parlato
'Live caption' usa solo 'Speech to text' e 'Text analysis' spiegato sopra per funzionare.
Articoli simili
- Qual è la più alta statistica di un Pokemon (qualsiasi statistica, ogni gen, ogni oggetto, ogni trasformazione, ogni abilità)?
- Quando arriverà in India la funzione di screening delle chiamate di Google per tutti gli altri dispositivi Android oltre al Pixel 3 e XL?
- Quanto tempo ci vorrà per rilasciare un aggiornamento per la mia app sulla console di Google Play?
- Perché i dispositivi Google Pixel 4 e Pixel 4 XL non verranno lanciati in India?