Che cos’è un file di testo?

Un file di testo è un file di computer che memorizza un documento digitato come una serie di caratteri alfanumerici, solitamente senza informazioni di formattazione visive. Il contenuto può essere una nota o un elenco personale, un giornale o un articolo di giornale, un libro o qualsiasi altro testo che può essere riprodotto accuratamente in forma dattiloscritta. I file di testo sono simili ai file di elaborazione testi in quanto il contenuto di entrambi è principalmente testuale; differiscono per il fatto che i file di testo di solito non registrano informazioni come lo stile e le dimensioni dei caratteri, l’impaginazione o altri dettagli che specificherebbero l’aspetto di un documento finito. Alcuni sistemi operativi per computer fanno una distinzione di base tra un file di testo, che deve essere tradotto direttamente in testo leggibile dall’uomo, e un file binario, che viene interpretato direttamente dal computer.

Nella maggior parte degli schemi utilizzati per la codifica del testo, a ciascun carattere viene assegnato un valore numerico, con il testo quindi scritto come una stringa di numeri binari. Una famiglia di schemi di codifica, chiamata American Standard Code for Information Interchange (ASCII), divenne uno standard ampiamente utilizzato all’inizio della storia dell’informatica, nonostante il suo scarso supporto per lingue diverse dall’inglese. La famiglia di codici ISO 8859 ha fornito un supporto molto migliore per le lingue basate sull’alfabeto latino e alfabeti simili, ma non è stata in grado di codificare i caratteri delle lingue dell’Asia orientale come il giapponese, portando a una proliferazione di standard incompatibili.

Più recentemente, il Consorzio Unicode® ha sviluppato un sistema di codifica chiamato Unicode® che ha l’obiettivo di assegnare un numero univoco a ogni carattere utilizzato in ogni lingua sulla terra. Ciò consentirà di utilizzare un unico codice per ogni lingua e consentirà ai testi di più lingue di apparire in un unico file. La prima parte di Unicode è basata su ISO 8859, a sua volta basato su ASCII. L’utilizzo di Unicode® può avere vantaggi anche nei paesi di lingua inglese, poiché il testo codificato utilizzando schemi precedenti può mostrare lievi incongruenze quando viene spostato da un sistema all’altro.

I vantaggi dei file di testo includono dimensioni ridotte e versatilità. Kilobyte o megabyte più piccoli degli stessi dati archiviati in altri formati, possono essere scambiati in modo rapido e massiccio via e-mail o disco. La maggior parte può essere aperta su computer che eseguono diversi sistemi operativi, utilizzando software di base. Lo svantaggio principale è la mancanza di formattazione. Un file di testo può essere una scelta sbagliata per rappresentare un documento che contiene immagini o che si basa su elementi di design per comunicarne il significato, ad esempio un file contenente dati tabulari, formule matematiche o poesia concreta.

I file di testo sono generalmente destinati a essere letti e modificati da esseri umani, ma non tutti contengono contenuti destinati principalmente al consumo umano. La maggior parte del codice di programmazione viene memorizzato in un file di testo prima di essere compilato, ovvero tradotto in un file binario leggibile dalla macchina. I file possono anche contenere tag testuali leggibili dalla macchina che forniscono informazioni sulla formattazione oltre al testo normale. Ad esempio, un file Hypertext Markup Language (HTML) può essere aperto come file di testo normale in un editor di testo o visualizzato come pagina Web formattata dopo essere stato interpretato da un browser Web. Schemi simili includono LaTeX, utilizzato per la stesura di articoli scientifici, e Extensible Markup Language (XML), utilizzato per strutturare i dati.