La densité lexicale fait référence au rapport entre les mots lexicaux et fonctionnels dans un texte ou une collection de textes donnés. C’est une branche de la linguistique informatique et de l’analyse linguistique. Il est lié au vocabulaire, aux mots connus de tout individu et peut être utilisé pour comparer les lexiques parlés et écrits de toute personne. Le lexique diffère du vocabulaire total car il n’inclut pas de mots fonctionnels tels que les pronoms et les particules.
La densité d’un discours ou d’un texte est calculée en comparant le nombre de mots lexicaux et le nombre de mots fonctionnels. Les phrases courtes et les petits textes peuvent être calculés par calcul mental ou par simple comptage. Des comparaisons plus importantes, disons de Charles Dickens ou de William Shakespeare, sont effectuées en introduisant les informations dans un programme informatique. Le programme va tamiser le texte en mots fonctionnels et lexicaux.
La densité lexicale équilibrée est d’environ 50 pour cent. Cela signifie que la moitié de chaque phrase est composée de mots lexicaux et l’autre moitié de mots fonctionnels. Un texte à faible densité aura un rapport inférieur à 50:50 et un texte à haute densité aura plus de 50:50. Les textes académiques et gouvernementaux, les documents remplis de jargon ont tendance à produire les densités les plus élevées.
Un défaut dans le calcul de la densité lexicale est qu’il ne prend pas en compte les différentes formes et cas des mots constitutifs. L’analyse statistique vise uniquement à étudier le rapport des types de mots. Il ne produit pas une étude des connaissances lexicales d’un individu. Si c’était le cas, l’analyse de densité lexicale ferait la différence entre des formes telles que donner et donner. Théoriquement, la densité lexicale peut être appliquée aux textes afin d’étudier la fréquence de certaines unités lexicales.
Le lexique écrit d’une personne peut être facilité par l’utilisation de dictionnaires et de thésaurus. De tels outils fournissent des mots alternatifs et clarifient les significations. Lorsqu’elle parle, une personne doit se fier uniquement à son vocabulaire mental. Cela signifie que la densité lexicale peut être utilisée comme un outil pour comparer les lexiques parlés et écrits. La densité lexicale des langues parlées tend à être inférieure à celle d’un texte écrit.
La linguistique informatique est un domaine de modélisation statistique de l’analyse linguistique. Il est né de la guerre froide et du désir de l’Amérique d’utiliser des ordinateurs pour traduire des textes du russe vers l’anglais. Pour ce faire, il a fallu recourir aux mathématiques, aux statistiques, à l’intelligence artificielle et à la programmation informatique. Le plus gros problème pour les programmeurs était de faire comprendre à l’ordinateur une grammaire complexe et une pragmatique linguistique. Cela a donné naissance à la théorie de la China Room selon laquelle les ordinateurs peuvent effectuer des traductions littérales de mots, mais ne peuvent pas, en fin de compte, comprendre les langues.