Was ist Sprachsynthese?

Sprachsynthese ist ein Prozess, bei dem verbale Kommunikation durch ein künstliches Gerät repliziert wird. Ein Computer, der Text in Sprache umwandelt, ist eine Art Sprachsynthesizer.

Die frühesten Formen der Sprachsynthese wurden durch Maschinen implementiert, die wie der menschliche Stimmtrakt funktionieren. Die von Wolfgang von Kempelen im 1700. Jahrhundert geschaffene Sprechmaschine ist ein Beispiel dafür. Mit diesem Gerät wurde Sprache durch einen Küchenbalg, ein Dudelsackrohr und eine Klarinettenglocke erzeugt. Der Küchenbalg sollte wie eine Lunge wirken, während die Glottis (der Bereich der Stimmbänder) durch das Dudelsackrohr dargestellt wurde. Als Mund diente die Klarinettenglocke.

Die Bedienung des Gerätes erfolgte komplett manuell. Die rechte Hand steuerte eine Reihe von Hebeln, während die linke Hand die Klarinettenglocke (Mund) manipulierte. Es gab auch die Möglichkeit, die „Nasenlöcher“ zu verstopfen, um einen weniger nasalen Klang zu erzeugen. So oder so, solange die grundlegenden Bedienelemente richtig verwendet wurden, erhielt die Maschine einen Luftstrom. Dieser Luftstrom bestimmte die Arten von Geräuschen, die erzeugt werden würden.

Nachfolgende Sprechmaschinen im 18. und 19. Jahrhundert behielten dieses Setup bei, obwohl es Verbesserungen gab. Zum Beispiel schuf Joseph Faber Ende des 1800. Jahrhunderts eine Sprechmaschine, die Eingaben über eine Tastatur und ein Pedal empfangen konnte. Die Maschine war auch sehr kreativ, da der Ton durch ein künstliches „Gesicht“ herauskam.

Als das 20. Jahrhundert anbrach, ermöglichten Innovationen in der Elektronik der Sprachsynthese eine noch stärkere Richtung. Obwohl die Prämisse, den menschlichen Stimmtrakt zu imitieren, immer noch dieselbe war, konnten Sprechmaschinen des frühen 20. Jahrhunderts bessere Klänge erzeugen, da die Eingabe präziser war.

Erst mit dem Aufkommen von Computern konnte die Sprachsynthese jedoch auch außerhalb des Unterhaltungsbereichs eingesetzt werden. Dies liegt hauptsächlich daran, dass Sprachsynthesizer in Software anstelle einer separaten Maschine gespeichert werden könnten. Darüber hinaus könnte die Sprachsynthese mit Computern als Hilfsmittel eine andere Form annehmen; die menschliche Stimme als Hauptquelle für den Klang zu verwenden.

Diese Form der Sprachsynthese wird als konkatenativ bezeichnet. Der Prozess funktioniert, indem verschiedene Aufzeichnungen menschlicher Sprache verbunden werden. Der resultierende Klang ist viel natürlicher und angenehmer für das Ohr. Dies steht im Gegensatz zu Programmen, die artikulatorische Synthese verwenden, bei denen Sprache durch ein computerisiertes Modell des Vokaltrakts repliziert wird.
Kommerzielle Sprachsynthesizer können entweder konkatenative oder artikulatorische Verfahren verwenden, aber beide sind in der Lage, dasselbe Ziel zu erreichen; in der Lage zu sein, Menschen die Möglichkeit zu geben, Text zu hören. Dies ist besonders in Situationen hilfreich, in denen das Lesen aufdringlich oder unmöglich ist.

In der Geschäftswelt sind solche Situationen sehr häufig, insbesondere bei Telefontransaktionen. Ohne Text-to-Speech (TTS)-Alternativen müssten Geschäftsinhaber Geld ausgeben, um noch mehr Kundendienstpersonal einzustellen. Synthetisierte Lösungen vermeiden dieses Problem, da alles vom Computer erledigt wird; kein Mensch.
Synthetisierte Sprache spielt auch im täglichen Leben eine Rolle, insbesondere für Menschen mit Behinderungen. Sprechende Uhren, Wörterbücher und andere Geräte können Menschen mit Seh- oder Leseproblemen die Arbeit erleichtern. Synthetisierte Sprache kann sogar Personen eine Stimme geben, die überhaupt nicht sprechen können. Steven Hawking, ein berühmter Physiker, ist ein prominentes Beispiel. Seit Lou Gehrigs Krankheit ihn stumm gemacht hat, verwendet Hawking einen Sprachsynthesizer, um mit Menschen zu kommunizieren.

Es gibt auch TTS-Anwendungen, die Menschen bei verschiedenen Computeraktivitäten unterstützen. Um diese Art von Anwendungen zu erhalten, müssen die meisten Benutzer separate Software kaufen oder Patches herunterladen. Letztere Option ist in der Regel kostenlos, je nach verwendetem Betriebssystem oder Textverarbeitungsprogramm. Wenn eine Person jedoch beschließt, separate Software zu kaufen, könnte sie Zugang zu einem höherwertigen System haben. Spezifische Beispiele sind in Natural Reader 7 und Text Aloud 2 zu sehen.
Letztendlich ist die Sprachsynthese eine Technologie, die die Kommunikation der Menschheit revolutioniert hat. In gewisser Weise verleiht es dem Text ein Eigenleben. Es gibt der Welt auch die Möglichkeit, die Gedanken brillanter Menschen zu hören, die normalerweise stimmlos gewesen wären.