Come creare il mio assistente digitale come Siri, Google Now o Cortana
Puoi saperne di più da questo articolo "Sviluppare un'app assistente personale simile a Google Assistant e Siri"
Prima di iniziare a sviluppare un'app assistente personale personalizzata dovresti controllare se tu o il tuo team di sviluppo avete le competenze necessarie. Questo tipo di app utilizza alcune delle tecnologie più innovative di oggi.
Quali caratteristiche di base dovrebbe avere un'app assistente personale mobile?
Conversione del parlato in testo e al contrario
Per essere convertita in testo, la voce può essere fornita sotto forma di un flusso o un file audio. CMU Sphinx è un grande e riconosciuto strumento che permette di fare questo.
Per quanto riguarda la conversione del testo o delle immagini in voce, è davvero utile nel caso in cui gli utenti desiderino scoprire la pronuncia corretta di una parola.
Targetizzazione intelligente e processo decisionale
Questa caratteristica permette ad un'app di capire la domanda dell'utente e fornire risultati pertinenti. Ad esempio, un utente pone una domanda a un'app assistente personale: "Quali sono i migliori hotel di New York? Un'app assistente personale dovrebbe trovarli e suggerire quelli che si adattano alle preferenze dell'utente. Potete usare l'API Alchemy per integrare il tagging intelligente e il processo decisionale nella vostra app.
Riconoscimento delle immagini
Anche se questa caratteristica è opzionale, è molto utile se avete intenzione di implementare il riconoscimento vocale multimodale. Se avete intenzione di farlo, prendete confidenza con la libreria OpenCV.
Riduzione del rumore
I suoni ambientali sono in grado di rendere un discorso poco chiaro e quindi di distorcere la domanda di ricerca degli utenti. L'implementazione di questa funzione permette di diminuire o rimuovere completamente i rumori ambientali che assicurano un riconoscimento vocale accurato.
Riconoscimento biometrico del parlato
La biometria del parlato permette di rilevare la persona da una voce e decidere se rispondere o meno. Questo eviterà potenziali interrogazioni maliziose fatte da terzi. Può anche prevenire incidenti comici come quello che si è verificato con Amazon Alexa quando ha cambiato la temperatura in un appartamento perché ha sentito una direttiva appropriata dal televisore acceso.
Compressione audio
La compressione audio permette al lato client di un'applicazione di ridurre la dimensione dei dati vocali e inviarli in tale stato al server. Con l'aiuto della riduzione della dimensione del discorso, la performance di un'app aumenta. Questo si traduce in una riduzione della possibilità di incontrare ritardi indesiderati. Per integrare la compressione audio considerate l'utilizzo dello standard G.711.
Interfaccia vocale
È un feedback che gli utenti possono sentire o vedere come risposta alla loro domanda. L'interfaccia vocale dovrebbe avere una varietà di opzioni personalizzabili. Possono includere la scelta di un modello di voce e il modo di parlare, l'impostazione della velocità del discorso, ecc. Anche la rappresentazione visiva dell'interfaccia vocale influisce sull'esperienza dell'utente, ma è un aspetto opzionale che può essere saltato.
È importante sottolineare che sia un server che il dispositivo mobile di un utente possono elaborare dati vocali e di testo. Potete controllare un'immagine qui sotto che mostra l'elaborazione dei dati che include la partiсipazione del server.
Come vengono elaborati i dati nelle applicazioni di assistente vocale mobile