Come funziona Google translate? Hanno un database per tutte le parole di una particolare lingua?
A partire dalla fine del 2016, la traduzione automatica utilizzata da Google Translate ha visto grandi progressi recenti abilitati dal Deep Learning. Nel settembre del 2016 Google ha annunciato il sistema Google Neural Machine Translation (GNMT), un nuovo sistema di traduzione automatica basato su reti neurali artificiali e Deep Learning.
Nel nuovo sistema, Google ha utilizzato reti neurali ricorrenti (RNN) che sono ben note per funzionare bene su sequenze (di parole e frasi). Usando questo approccio, Google è stato in grado di migliorare continuamente la qualità delle traduzioni consentendo ai suoi sistemi di prendere in considerazione non solo le parole e le frasi di partenza, ma anche i contesti più ampi di dove appaiono nelle frasi e quali sono le altre parole e frasi intorno ad esse.
Queste questioni sono note da molto tempo per essere la differenza chiave tra le tecniche di traduzione umana e quelle semplici della macchina.
Poco dopo, nel novembre del 2016, Google ha annunciato Zero-Shot Translation con il sistema di traduzione automatica multilingue di Google, che evita la traduzione ingombrante di singole coppie di lingue traducendo le frasi di input in rappresentazioni vettoriali distribuite dei loro presunti significati indipendentemente dalla lingua (o dalle lingue) in questione.
Ad esempio, nel rapporto descrivono l'utilizzo di coppie giapponese-inglese e coreano-inglese per addestrare il loro sistema multilingue. Poi sono in grado di chiedere al sistema traduzioni di coppie che non ha mai visto prima, cioè coreano-giapponese nell'esempio di cui sopra. Sorprendentemente, il sistema ha prodotto traduzioni ragionevoli anche per tali coppie.
Questo progresso è veramente grande, in quanto dimostra chiaramente un miglioramento nel tentativo di raggiungere l'obiettivo finale di far comprendere ai computer la semantica e i significati, invece di semplici mappature sintattiche di parole e frasi tra coppie di lingue individuali.
In aggiunta alle RNN, questo sforzo è stato chiaramente ispirato dai recenti progressi nelle rappresentazioni vettoriali distribuite di parole (e frasi), chiamate word embeddings. Mikolov et al descrivono nel loro sorprendente documento Word2Vec, un sistema per mappare le parole a vettori in uno spazio reale multidimensionale di dimensione relativamente bassa (poche centinaia).
Mostrano che le embeddings di parole con significati simili sono vicine nello spazio di destinazione, il che è un enorme progresso, poiché gli approcci sintattici (semplici) producono mappature selvaggiamente diverse anche su piccole differenze sintattiche, senza contare significati simili come i sinonimi. C'è anche un altro grande vantaggio delle rappresentazioni compatte, poiché i vettori di alcune centinaia di numeri reali sono molto più facili da gestire rispetto alle codifiche one-hot dove le dimensioni sono milioni.
I vettori di incorporamento delle parole di bassa dimensionalità sono quindi visti come rappresentazioni dei significati delle frasi, che è ciò su cui si basa la traduzione multilingue Zero-Shot di Google. Il loro sistema sta creando incorporazioni indipendenti dalla lingua, il che è davvero sorprendente, se ci pensate.
Word2vec non è veramente un sistema di apprendimento profondo, in quanto non è basato su reti neurali artificiali multistrato. La sua grande potenza deriva dal fatto che è un metodo non supervisionato che non richiede dati di addestramento, scala estremamente bene a (molti) miliardi di parole ed è in grado di preservare le somiglianze semantiche nelle distanze negli spazi vettoriali compatti di destinazione.
Google's Machine Translation efforts sono un grande esempio di progressi sorprendenti nel Deep Learning, che non riguardano solo la qualità delle traduzioni, ma anche l'avvicinarsi al Santo Graal dei computer che comprendono la semantica e i significati.
Articoli simili
- Come trovare il numero totale di persone che cercano una particolare parola chiave su Google ogni mese in un particolare paese
- Perché 'Google Translate' non supporta la voce per la lingua ebraica?
- Come cercare tutte le app di un particolare editore in Google Play
- Qual è la differenza tra un database tradizionale e un database moderno?