Come leggere il testo Bangla da un file di testo usando Python
La risposta breve è "Sì, certo che puoi, se è lì dentro!" ma ci possono essere alcuni passi da fare a seconda del file di testo originale.
- Il file di testo è già testo codificato UTF-8, contiene la riga di codifica ed è in Bangla - dovresti poter fare semplicemente: text = open("filename.txt").readlines()
- Il file di testo è qualche altra codifica riconosciuta rispetto a UTF-8 per il testo codificato in Bangla, contiene la riga di codifica ed è in Bangla - si dovrebbe essere ancora in grado di fare: text = open("filename.txt").readlines()
- Il file di testo è già testo codificato UTF-8, non contiene la riga di codifica ed è in Bangla - si può fare text = open("filename.txt", encoding='utf-8').readlines()
- Il file di testo ha una codifica diversa da UTF-8 riconosciuta per il testo codificato in Bangla, non contiene la riga di codifica ed è in Bangla - si dovrebbe essere ancora in grado di fare: text = open("filename.txt", encoding='the-encoding').readlines()
- Il file di testo non è, infatti, un file di testo ma è un documento MS-Word o Open Office - dovrai usare una libreria appropriata al formato attuale.
- Il file di testo non è, infatti, un file di testo ma è un formato codificato in html (o possibilmente in xml) - una libreria come Beautiful Soup dovrebbe venire in tuo soccorso.
- Il file di testo contiene una rappresentazione fonetica del Bangla in caratteri ASCII - probabilmente dovrai scrivere una tabella di look-up.
- Il file contiene un mix di Bangla e altro testo in uno dei formati di cui sopra - probabilmente dovrai o dividere manualmente il file per lingua e poi usare uno dei formati di cui sopra o leggerlo due volte e identificare quali bit sono in quale - se è UTF-8 il set di caratteri può aiutare, se non altro un correttore ortografico può aiutare.
- Il file in realtà non contiene affatto Bangla - finalmente abbiamo un caso in cui non sarai in grado di leggere Bangla da esso.
Articoli simili
- Come leggere il file PDF riga per riga usando Python
- Qual è la migliore tastiera Android per digitare il Bangla?
- Come aprire e leggere file eseguibili da un file .so in Linux
- Se il testo inizia come iMessage e cambia in verde e dice inviato come messaggio di testo sei bloccato e il testo è stato inviato?