Was ist eine Häufigkeitsliste?

Eine Häufigkeitsliste ist ein Werkzeug zur quantitativen linguistischen Analyse, eine Auflistung von allem, was in einem ausgewählten Textblock vorkommt und wie häufig es vorkommt. Die Sprachanalyse ist ein interdisziplinäres Feld, das die Struktur der Sprache und ihre Verwendung untersucht. Die linguistische Analyse kombiniert Elemente der Anthropologie, Mathematik, Informatik und Logik und wird für Projekte wie mechanische Übersetzung, Kryptographie und Entschlüsselung alter Schriften verwendet.

Häufigkeitslisten können Listen von Wörtern oder Buchstaben sein. Buchstabenhäufigkeiten werden typischerweise in der Kryptographie verwendet. Einer der einfachsten Codes ist eine Ersatzchiffre, bei der jeder Buchstabe durch einen anderen Buchstaben oder ein anderes Symbol ersetzt wird. Beispielsweise könnte die Nachricht „Angriff im Morgengrauen“ als „zoozhl zo azqp“ codiert sein. Der Vorteil von Ersatzchiffren besteht darin, dass sie kein Codebuch benötigen, aber die Schwäche besteht darin, dass sie geknackt werden können, indem die Häufigkeit von Buchstaben und Buchstabenkombinationen innerhalb der Nachricht mit einer Häufigkeitsliste allgemeiner Verwendung verglichen wird.

In Arthur Conan Doyles Das Abenteuer der tanzenden Männer verwendet der fiktive Detektiv Sherlock Holmes Frequenzanalysen, um eine Ersatzchiffre zu knacken. In der Vergangenheit haben Codemacher verschiedene Tricks ausprobiert, um das Knacken ihrer Chiffren mit einer Häufigkeitsliste zu erschweren: rollierende Chiffren, bei denen die verwendete Ersetzung von der Position eines Buchstabens in der Nachricht abhing, Leerzeichen eliminieren oder codieren, sodass Worthäufigkeiten nicht verwendet werden konnten, Nachrichten behalten kurz und vermeidet erwartete Wörter, damit Codebrecher nicht genug Samples für die Frequenzanalyse haben. Letztendlich kann jede Chiffre mit einer ausreichend großen Stichprobe gebrochen werden, weshalb ausgefeiltere Verschlüsselungsprotokolle zum Standard geworden sind.

Häufigkeitslisten von Wörtern und Wortarten werden auch in der Altsprachforschung verwendet. Als Jean-Francois Champollion in den 1820er Jahren den Rosetta-Stein übersetzte, verwendete sein Verfahren eine Mischung aus Häufigkeitsvergleichen und Transliterationen, um die Hieroglyphensprache zusammenzusetzen. Studien haben gezeigt, dass für alte Sprachen wie für modernes Englisch ein Kernvokabular von 1,500 bis 2,000 Wörtern 85-90 Prozent der gängigen Texte abdeckt, ein Niveau, das es dem Leser ermöglicht, seinen Wortschatz aus dem Kontext heraus zu erweitern.

Das Zipfsche Gesetz, benannt nach dem Harvard Linguistik-Professor George Kingsley Zipf, ist eine empirische Beobachtung des Verhaltens von Frequenzbewertungen. Es besagt, dass die Häufigkeit eines Ereignisses umgekehrt proportional zum Rang des Ereignisses ist. Das Ereignis ist im Allgemeinen ein Wort oder ein Buchstabe in einer linguistischen Häufigkeitsliste, aber das Gesetz von Zipf wurde verallgemeinert, um andere Phänomene wie Stadtbevölkerung und Unternehmensgewinne abzudecken.

Eine Häufigkeitsliste ist ein wichtiges Werkzeug in Projekten, um Computern zu helfen, die gesprochene und geschriebene Sprache zu verstehen. Mechanische Übersetzung – die Verwendung von Computern, um Dokumente von einer Sprache in eine andere zu übersetzen – ist ein Beispiel. Ein weiteres Beispiel ist Watson, der Supercomputer in natürlicher Sprache, der als Kandidat in der Fernsehspielshow Jeopardy! im Februar 2011. Häufigkeiten sowohl von Wörtern als auch von Verwendungsarten werden als Werkzeug zur Bedeutungsfindung in ihre Programmierung einbezogen.