Was ist ein Sprachkorpus?

Ein Sprachkorpus, auch als gesprochener Korpus bekannt, ist eine Sammlung von Reden, die im Audio- oder Textformat gespeichert sind. Diese Sammlungen sind nützlich bei der Entwicklung von Sprachsoftware und bei der Durchführung linguistischer Studien. Die beiden Varianten des Sprachkorpus sind die spontane Sprache und die gelesene Sprache.
Es ist wichtig zu definieren, was die Wörter „Sprache“ und „Korpus“ bedeuten. Sprache umfasst Ansammlungen von Gedanken und Fakten, normalerweise in gesprochener Form. Man kann auch jede gesprochene Äußerung als Sprache ansehen. Ein Korpus wiederum verweist auf eine formale Sammlung verschiedener Informationen.

Benutzer erstellen ein Sprachkorpus in der Regel entweder über Audioaufnahmen oder textbasierte Transkriptionen. Aufnahmen können über Tonspeichertechnologien gemacht und – oft als MP3-Dateien in elektronischen Datenbanken – zu einem Korpus gespeichert werden. Ein Transkribierer hingegen wandelt gesprochene Sprache in eine schriftliche Form um, die dann mit anderen Transkriptionen zusammengestellt wird.

Jede Art von Sprache kann in einem Sprachkorpus gefunden werden, aber solche Datenbanken werden im Allgemeinen in zwei Kategorien unterteilt. Die erste, spontane Rede, enthält nicht formalisierte Reden, die eine Person halten könnte, wie sie beispielsweise in Gesprächen oder beim mündlichen Geschichtenerzählen zu finden sind. Gelesene Reden haben jedoch eine stärker formalisierte und vorgeplante Struktur. Beispiele können politische Reden, Nachrichtensendungen und Hörbuchlesungen sein. Einige Varianten können vom spezifischen Kontext abhängen, wie z. B. Interviews.

Ein großer Vorteil von Sprachkorpus-Tools ist ihr praktischer Nutzen bei der Erstellung sprachbasierter Software. Viele Computer und andere elektronische Geräte bieten beispielsweise Spracherkennungsfunktionen als Option, wie zum Beispiel das Zurücklesen von getipptem Text, das Umwandeln gesprochener Wörter in Text oder das Identifizieren eines Sprechers anhand einzigartiger Stimmmerkmale. Extraktionen aus einem Sprachkorpus könnten bei der Verbesserung dieser Technologie helfen, indem mathematisch basierte Sätze von Statistiken, die als akustische Modelle bezeichnet werden, auf jeden einzelnen Klang angewendet werden. Darüber hinaus können die Datenbanken bei der Entwicklung von Tonbändern zum Sprachenlernen helfen.

Diese Funktionen knüpfen an eine andere Anwendung für ein Sprachkorpus an. Gelehrte können nämlich diese konservierten Audio- oder schriftlichen Dateien nehmen und die subtilen grammatikalischen Variationen studieren, aus denen die Sprache besteht. Daher kann ein Sprachkorpus als wertvolles Werkzeug zum Erlernen von Aussprache, Wortstellung und anderen linguistischen Modellen dienen. Forscher können Ähnlichkeiten und Unterschiede in verschiedenen regionalen Dialekten und Sprachen weiter vergleichen, wenn sie eine Sammlung mit mehreren Sprachen oder ein mehrsprachiges Korpus erstellen. Die Bewertung von Sprachkorpora ist ein spezialisierter Forschungsschwerpunkt, der als Korpuslinguistik bekannt ist, und seine computergestützte Implementierung wird als Computerlinguistik bezeichnet.

Viele Transkriptdatenbanken enthalten Notationen oder Tags, die Informationen zu den einzelnen Komponenten eines Textes enthalten. Dieser Vorgang wird als Annotation bezeichnet. Bei der Abstraktion dokumentieren und übersetzen Linguisten verschiedene Begriffe in einer Rede. Eine solche Eingabe kann nützlich sein, wenn eine Person durch Texte etwas über unbekannte Zivilisationen erfahren möchte. Der letzte Schritt des Korpusstudiums umfasst die Analyse oder das Ableiten von Vergleichen und theoretischen Idealen aus einer Sammlung von Sprachkomponenten.