La densità lessicale si riferisce al rapporto tra parole lessicali e funzionali in un dato testo o raccolte di testi. È una branca della linguistica computazionale e dell’analisi linguistica. È legato al vocabolario, le parole conosciute di qualsiasi individuo e può essere utilizzato per confrontare i lessici parlati e scritti di una persona. Il lessico differisce dal vocabolario totale perché non include parole funzionali come pronomi e particelle.
La densità di un discorso o di un testo viene calcolata confrontando il numero di parole lessicali e il numero di parole funzionali. Frasi brevi e testi brevi possono essere calcolati utilizzando l’aritmetica mentale o semplicemente contando. Confronti più ampi, ad esempio di Charles Dickens o William Shakespeare, vengono effettuati inserendo le informazioni in un programma per computer. Il programma vaglierà il testo in parole funzionali e lessicali.
La densità lessicale bilanciata è di circa il 50 percento. Ciò significa che metà di ogni frase è composta da parole lessicali e metà da parole funzionali. Un testo a bassa densità avrà un rapporto inferiore a 50:50 e un testo ad alta densità avrà più di 50:50. Testi accademici e documenti governativi, pieni di gergo tendono a produrre le densità più elevate.
Un difetto nel calcolo della densità lessicale è che non tiene conto delle diverse forme e casi delle parole costituenti. L’analisi statistica mira solo allo studio del rapporto tra i tipi di parole. Non produce uno studio della conoscenza lessicale di un individuo. In tal caso, l’analisi della densità lessicale distinguerebbe tra forme come “dare” e “dare”. In teoria, la densità lessicale può essere applicata ai testi per studiare la frequenza di determinate unità lessicali.
Il lessico scritto di una persona può essere aiutato attraverso l’uso di dizionari e thesauri. Tali strumenti forniscono parole alternative e chiariscono i significati. Quando si parla, una persona deve fare affidamento solo sul proprio vocabolario mentale. Ciò significa che la densità lessicale può essere utilizzata come strumento per confrontare lessici parlati e scritti. La densità lessicale delle lingue parlate tende ad essere inferiore a quella di un testo scritto.
La linguistica computazionale è un’area di modellazione statistica dell’analisi linguistica. È nato dalla Guerra Fredda e dal desiderio americano di utilizzare i computer per tradurre testi dal russo all’inglese. Ciò ha richiesto l’uso di matematica, statistica, intelligenza artificiale e programmazione informatica. Il problema più grande per i programmatori era far capire al computer la grammatica complessa e la pragmatica del linguaggio. Ciò ha dato origine alla teoria della China Room secondo cui i computer possono eseguire traduzioni letterali di parole, ma non possono, in definitiva, comprendere le lingue.