Was ist die Verteilungshypothese?

Die Verteilungshypothese geht davon aus, dass Wörter mit gleicher Bedeutung innerhalb von Texten gruppiert werden. Die Idee untersucht Wörter auf ihre Bedeutung und ihre Verteilung in einem Text. Dies wird dann mit der Verteilung von Wörtern mit ähnlicher oder verwandter Bedeutung verglichen. Solche Untersuchungen stellen fest, dass Wörter aufgrund ihrer ähnlichen oder verwandten Bedeutungen in ihrem Kontext zusammen vorkommen.

Die Verteilungshypothese wurde zuerst vom britischen Linguisten JR Firth vorgeschlagen. Er ist bekannt für das berühmteste Zitat zu der Idee „Du sollst ein Wort von der Firma kennen, die es hält“. Firth, der auch für seine Studien zur Prosodie bekannt ist, glaubte, dass kein System jemals erklären würde, wie eine Sprache funktioniert. Stattdessen glaubte er, dass mehrere sich überschneidende Systeme benötigt würden.

Die amerikanische Sprachwissenschaftlerin Zellig Harris baute auf Firths Arbeit auf. Er wollte Mathematik verwenden, um linguistische Daten zu studieren und zu analysieren. Seine Ideen zum Beitrag der Mathematik zu solchen Studien sind wichtig, aber er ist auch dafür bekannt, dass er zu Lebzeiten ein breites Spektrum linguistischer Ideen behandelt hat.

Untersuchungen zur Verteilungshypothese sind Teil der linguistischen Untersuchung. Es werden mathematische und statistische Methoden verwendet, nicht linguistische, um große Mengen an Sprachdaten zu sichten. Dies bedeutet, dass die Verteilungshypothese Teil der Computerlinguistik und der statistischen Semantik ist. Es hängt auch mit Ideen von Linguisten und Sprachphilosophen über die Entwicklung der Muttersprache bei Kindern zusammen, ein Prozess, der als Spracherwerb bekannt ist.

Die statistische Semantik verwendet mathematische Algorithmen, um die Wortverteilung zu untersuchen. Diese Ergebnisse werden dann nach Bedeutung gefiltert und weiter untersucht, um die Verteilung von Wörtern zu ermitteln, die nach Bedeutung in Beziehung stehen. Es gibt zwei Hauptmethoden der statistischen Semantik: Verteilung nach Wortclustern und nach Textregionen.

Die Untersuchung der Wortverteilung nach Clustern verwandter Bedeutungen wird als Hyperspace Analog to Language (HAL) bezeichnet. HAL untersucht die Beziehungen von Wörtern, die in einem Text zusammengefasst sind. Dies kann innerhalb eines Satzes oder innerhalb eines Absatzes sein, aber selten darüber hinaus. Die semantische Verteilung von Wörtern wird dadurch bestimmt, wie oft die Wörter nebeneinander vorkommen.
Ganztextstudien verwenden die Latent Semantic Analysis (LSA). Dies ist ein Verfahren zur Verarbeitung natürlicher Sprache. Wörter mit einer nahen Bedeutung kommen im gesamten Text nahe beieinander vor. Solche Texte werden mit einer mathematischen Methode namens Singular Value Decompression (SVD) auf Cluster untersucht.

Daten aus Studien zur Verteilungshypothese werden verwendet, um die Bausteine ​​der Semantik und Wortbeziehungen zu untersuchen. Über einen strukturalistischen Ansatz hinausgehend kann die Hypothese auf Künstliche Intelligenz (KI) angewendet werden. Dies würde Computerprogrammen helfen, die Beziehung und Verteilung von Wörtern besser zu verstehen. Es hat auch Auswirkungen darauf, wie Kinder Wörter verarbeiten und Wortassoziationen und Sätze bilden.