Was ist Spracherkennung?

Spracherkennung oder Spracherkennung ist eine Computertechnologie, die anstelle einer Tastatur eine Audioeingabe zur Eingabe von Daten verwendet. Das Sprechen in ein Mikrofon führt zum Beispiel zum gleichen Ergebnis wie das manuelle Eingeben von Wörtern mit einer Tastatur. Einfach gesagt, Spracherkennungssoftware ist mit einer internen Datenbank mit erkennbaren Wörtern oder Sätzen ausgestattet. Das Programm gleicht die Audiosignatur von Sprache mit entsprechenden Einträgen in der Datenbank ab.

Obwohl es einfach klingt, Sprache in Text umzuwandeln, ist es eine äußerst schwierige Aufgabe. Das Problem liegt in der nahezu unendlichen Vielfalt individueller Sprachmuster und Akzente, die durch die natürliche menschliche Tendenz, Wörter zusammenzufassen, noch verstärkt werden.

Verschiedene Modelle von Spracherkennungssoftware werden für eine Reihe von Anwendungen verwendet, von persönlichen Diktaten bis hin zu kommerzieller automatisierter Anrufweiterleitung, von Behindertenhilfe bis hin zur Untertitelung von Sport- und Nachrichtenveranstaltungen. Jedes Modell verhält sich anders und hat seine eigenen Fähigkeiten und Grenzen.

Spracherkennungsprogramme, die erfordern, dass der Benutzer die Software „trainiert“, um ihre speziellen stilisierten Sprachmuster zu erkennen, werden als sprecherabhängige Systeme bezeichnet. Einzelpersonen verwenden diese Art von Programmen häufig zu Hause oder im Büro. E-Mails, Memos, Briefe, Daten und Text können durch Sprechen in ein Mikrofon eingegeben werden.

Einige Spracherkennungssysteme, die als diskrete Sprachsysteme bezeichnet werden, erfordern, dass der Benutzer klar und langsam spricht und Wörter trennt. Kontinuierliche Sprachsysteme sind darauf ausgelegt, eine natürlichere Sprechweise zu verstehen.
Diskrete Sprachsysteme werden weit verbreitet für das Routing des Kundendienstes verwendet. Das System ist sprecherunabhängig, versteht aber nur einen kleinen Pool von Wörtern oder Phrasen. Der Anrufer hat die Wahl, eine Frage zu beantworten, normalerweise mit „Ja“ oder „Nein“. Nach Erhalt einer Antwort eskaliert das System den Anrufer auf die nächste Ebene. Wenn der Anrufer mit einer eindeutigen Antwort antwortet, lautet die automatische Antwort normalerweise: „Entschuldigung, ich habe Sie nicht verstanden; Bitte versuchen Sie es erneut“, mit einer Wiederholung der Frage und der verfügbaren Antworten. Diese Art der Spracherkennung wird auch als grammatikbeschränkte Erkennung bezeichnet.

Kontinuierliches Sprechen ist eine anspruchsvollere Form der Spracherkennungssoftware, bei der der Anrufer natürlich sprechen kann, um ein Problem zu erklären oder einen Dienst anzufordern. Dieses Programm wurde entwickelt, um Schlüsselwörter oder Phrasen herauszufiltern und eine statistische bestmögliche Einschätzung zu den Kundenwünschen zu erstellen. Klares Sprechen hilft dem Programm, den Bedarf zu erkennen. Dieser Systemtyp hat eine weitaus intensivere Datenbank als diskrete Sprachsysteme und wird auch als natürliche Spracherkennung bezeichnet.

Die automatische Spracherkennung (ASR) ist ein Modell der Spracherkennung, das für das Diktieren entwickelt wurde. Diese Software unterscheidet sich von früheren Modellen dadurch, dass sie nicht danach strebt, das Gesagte zu verstehen, sondern nur die gesprochenen Wörter zu identifizieren. Da viele Wörter in der englischen Sprache gleich klingen, werden leicht Fehler gemacht. ASR-Software ist häufig auf digitalen Diktiergeräten zu finden.