QNA > Q > Qual È La Differenza Tra Un Variational Autoencoder (Vae) E Un Autoencoder?

Qual è la differenza tra un Variational Autoencoder (VAE) e un Autoencoder?

L'articolo Building Autoencoders in Keras a cui fa riferimento Ajit Rajasekharan è un ottimo punto di partenza. Ho anche trovato che l'esempio usato in Using Artificial Intelligence to Augment Human Intelligence è molto intuitivo e usa questo esempio di font generati da punti di raccolta nella distribuzione.

main-qimg-8a911b24039e09afd8fed157fdbc83d6

Il modello generativo che usiamo è un tipo di rete neurale noto come variational autoencoder (VAE)[3]. Per i nostri scopi, i dettagli del modello generativo non sono così importanti. La cosa importante è che cambiando le variabili latenti usate come input, è possibile ottenere diversi caratteri come output. Così una scelta di variabili latenti darà un font, mentre un'altra scelta darà un font diverso:

Puoi pensare alle variabili latenti come una rappresentazione compatta e di alto livello del font. La rete neurale prende questa rappresentazione di alto livello e la converte in dati pixel completi. È notevole che solo [math]40[/math]40 numeri possano catturare l'apparente complessità di un glifo, che originariamente richiedeva [math]4.096[/math]4.096 variabili.

Il modello generativo che usiamo viene appreso da un training set di più di [math]50[/math]50 mila font Bernhardsson[4] raschiati dal web aperto. Durante l'addestramento, i pesi e le distorsioni della rete sono regolati in modo che la rete possa produrre un'approssimazione vicina a qualsiasi font desiderato dall'insieme di addestramento, a condizione che venga fatta una scelta adeguata delle variabili latenti. In un certo senso, il modello sta imparando una rappresentazione altamente compressa di tutti i font di allenamento.

In effetti, il modello non riproduce solo i font di allenamento. Può anche generalizzare, producendo caratteri non visti in allenamento. Essendo costretta a trovare una descrizione compatta degli esempi di allenamento, la rete neurale impara un modello astratto e di livello superiore di ciò che è un font. Questo modello di livello superiore rende possibile generalizzare oltre gli esempi di allenamento già visti, per produrre font dall'aspetto realistico.

Di Inglis Iardella

Articoli simili

Com'è passare da uno smartphone Android da 5 pollici a un Apple iPhone SE da 4 pollici? :: Perché non fanno più smartphone da 4 pollici, come l'iPhone SE? Penso che sia una dimensione ideale per un telefono.