Quante parole ci sono in 500 caratteri?
Lo si può stimare in un corpora con passaggi e testi di vari soggetti o contesti. Si delimitano le parole in 500 caratteri e si conta quante parole ci sono. Poi si divide il numero totale di parole in 500 caratteri. Fate questo per tutte le sequenze di 500 caratteri nel vostro corpora, e fate la media di ogni statistica di parole per carattere. Questo sta usando almeno il modo ortografico di scrivere le parole, in questo caso puoi farlo anche per l'ortografia fonetica, se questo è un interesse. Questo vi dirà una cosa, quanto è efficiente la vostra lingua a scrivere parole codificate in caratteri presi come lettere o lettere fonetiche. Se confronti le lingue in quel corpora e la codifica dei caratteri, puoi vedere quante parole per carattere ci sono in media per ogni corpora per lingua. E poi confrontate queste medie per vedere quante parole in media ci sono in 500 caratteri, separate per lingua. Questo vi dirà quale lingua è più efficiente nel codificare quelle parole nei passaggi, usando vari caratteri o codifiche. E anche che implicitamente state confrontando corpora di traduzioni tra lingue. È molto importante capire il rapporto tra parole e caratteri, che è come il rapporto tra morfemi e sillabe, ma preso in modo più computazionale dal computer. Questo può essere studiato nella linguistica computazionale anche ad un livello molto elementare, dove più si studia in quel campo, più la teoria linguistica dovrebbe essere sviluppata come applicata alle codifiche del computer e allo scambio di informazioni. Inoltre, dovremmo notare che un computer ha una memoria e un processo finiti per le istruzioni, e che in realtà utilizza energia presa da una centrale elettrica come fonte. Così che anche se abbiamo risorse abbondanti negli Stati Uniti per esempio, ma non è illimitato, ma reso più economico e guadagna dai progressi architettonici in efficienza. Ciò significa che, a livello di base, si vuole usare una lingua o le strutture grammaticali e le parole di una lingua, che sia più efficiente ed economica nella rappresentazione delle parole.