L’hypothèse distributionnelle met en avant l’idée que les mots de même sens sont regroupés au sein des textes. L’idée examine les mots pour leur signification et leur distribution à travers un texte. Ceci est ensuite comparé aux distributions de mots ayant des significations similaires ou apparentées. De tels examens déterminent que les mots se produisent ensemble dans leur contexte en raison de leurs significations similaires ou apparentées.
L’hypothèse distributionnelle a été suggérée pour la première fois par le linguiste britannique JR Firth. Il est connu pour la citation la plus célèbre concernant l’idée Vous connaîtrez un mot par la compagnie qu’il garde. Firth, qui est également bien connu pour ses études sur la prosodie, pensait qu’aucun système n’expliquerait jamais le fonctionnement d’une langue. Au lieu de cela, il croyait que plusieurs systèmes qui se chevauchent seraient nécessaires.
Le linguiste américain Zellig Harris s’est inspiré des travaux de Firth. Il voulait utiliser les mathématiques pour étudier et analyser des données linguistiques. Ses idées sur la contribution des mathématiques à de telles études sont importantes, mais il est également connu pour avoir couvert un large éventail d’idées linguistiques au cours de sa vie.
Les études sur l’hypothèse distributionnelle font partie de l’examen de la linguistique. Des méthodes mathématiques et statistiques, et non linguistiques, sont utilisées pour passer au crible de grandes quantités de données linguistiques. Cela signifie donc que l’hypothèse distributionnelle fait partie de la linguistique informatique et de la sémantique statistique. Il est également lié aux idées des linguistes et des philosophes linguistiques sur le développement des langues maternelles chez les enfants, un processus connu sous le nom d’acquisition du langage.
La sémantique statistique utilise des algorithmes mathématiques pour étudier la distribution des mots. Ces résultats sont ensuite filtrés par sens et étudiés plus avant pour déterminer la distribution des mots liés par leur sens. Il existe deux méthodes principales de sémantique statistique : la distribution par groupes de mots et par région de texte.
L’étude de la distribution des mots par groupes de significations apparentées s’appelle Hyperspace Analog to Language (HAL). HAL examine les relations entre les mots regroupés dans un texte. Cela peut être intra-phrase ou intra-paragraphe, mais rarement plus loin que cela. La distribution sémantique des mots est déterminée par la fréquence à laquelle les mots se côtoient.
Les études de texte entier utilisent l’analyse sémantique latente (LSA). Il s’agit d’une méthode de traitement du langage naturel. Les mots ayant un sens proche se produiront les uns à côté des autres tout au long d’un texte. Ces textes sont examinés pour les clusters à l’aide d’une méthode mathématique appelée Singular Value Decompression (SVD).
Les données glanées à partir d’études sur l’hypothèse distributionnelle sont utilisées pour étudier les éléments constitutifs de la sémantique et des relations entre les mots. Dépassant une approche structuraliste, l’hypothèse peut être appliquée à l’intelligence artificielle (IA). Cela aiderait les programmes informatiques à mieux comprendre la relation et la distribution des mots. Cela a également des implications sur la façon dont les enfants traitent les mots et créent des associations de mots et des phrases.