Die lexikalische Dichte bezieht sich auf das Verhältnis von lexikalischen und funktionalen Wörtern in einem bestimmten Text oder einer Textsammlung. Es ist ein Teilgebiet der Computerlinguistik und der linguistischen Analyse. Es ist mit dem Vokabular verknüpft, den bekannten Wörtern einer Person und kann verwendet werden, um die gesprochenen und geschriebenen Lexika einer Person zu vergleichen. Lexikon unterscheidet sich vom Gesamtvokabular, da es keine funktionalen Wörter wie Pronomen und Partikel enthält.
Die Dichte einer Sprache oder eines Textes wird durch den Vergleich der Anzahl der lexikalischen Wörter und der Anzahl der funktionalen Wörter berechnet. Kurze Sätze und kleine Texte lassen sich durch Kopfrechnen oder durch einfaches Zählen berechnen. Größere Vergleiche, etwa von Charles Dickens oder William Shakespeare, werden durchgeführt, indem die Informationen in ein Computerprogramm eingespeist werden. Das Programm siebt den Text in funktionale und lexikalische Wörter.
Die ausgewogene lexikalische Dichte beträgt ungefähr 50 Prozent. Dies bedeutet, dass jeder Satz zur Hälfte aus lexikalischen Wörtern und zur Hälfte aus funktionalen Wörtern besteht. Ein Text mit niedriger Dichte hat ein Verhältnis von weniger als 50:50 und ein Text mit hoher Dichte mehr als 50:50. Wissenschaftliche Texte und Regierungs-Jargon-gefüllte Dokumente neigen dazu, die höchsten Dichten zu erzeugen.
Ein Fehler bei der Berechnung der lexikalischen Dichte besteht darin, dass sie die verschiedenen Formen und Fälle von konstituierenden Wörtern nicht berücksichtigt. Die statistische Analyse zielt nur darauf ab, das Verhältnis der Wortarten zu untersuchen. Es produziert keine Studie über das lexikalische Wissen einer Person. Wenn dies der Fall wäre, würde die lexikalische Dichteanalyse zwischen Formen wie „geben“ und „geben“ unterscheiden. Theoretisch kann die lexikalische Dichte auf Texte angewendet werden, um die Häufigkeit bestimmter lexikalischer Einheiten zu untersuchen.
Das schriftliche Lexikon einer Person kann durch die Verwendung von Wörterbüchern und Thesauren unterstützt werden. Solche Tools bieten alternative Wörter und verdeutlichen Bedeutungen. Beim Sprechen muss sich eine Person nur auf ihr mentales Vokabular verlassen. Dies bedeutet, dass die lexikalische Dichte als Werkzeug zum Vergleich von gesprochenen und geschriebenen Lexika verwendet werden kann. Die lexikalische Dichte gesprochener Sprachen ist tendenziell geringer als die eines geschriebenen Textes.
Computerlinguistik ist ein statistisches Modellierungsgebiet der linguistischen Analyse. Es entstand aus dem Kalten Krieg und dem Wunsch der USA, mithilfe von Computern Texte aus dem Russischen ins Englische zu übersetzen. Dies erforderte den Einsatz von Mathematik, Statistik, künstlicher Intelligenz und Computerprogrammierung. Das größte Problem für Programmierer bestand darin, den Computer dazu zu bringen, komplexe Grammatik und Sprachpragmatik zu verstehen. Daraus entstand die China Room-Theorie, dass Computer wörtliche Übersetzungen von Wörtern durchführen können, aber letztendlich keine Sprachen verstehen können.