Was ist Text-to-Speech-Technologie?

Text-to-Speech bezeichnet die Umwandlung von geschriebenen Wörtern in eine Sprachausgabe mittels Sprachsynthese, einer künstlichen Möglichkeit, den Zugang zur verbalen Kommunikation in alternativer Form zu ermöglichen. Text-to-Speech-Technologie bezieht sich auf Software und Hardware, die eine Sprachausgabe über eine Texteingabe bereitstellt. Diese Technologie kann Wörter aus gespeicherten Phonemen – einzelnen Sprachelementen – erstellen und kann für bessere Ergebnisse auch ganze Wörter und Phrasen speichern. Die Text-to-Speech-Technologie hat ein breites Anwendungsspektrum.

Zumindest einige Computerbetriebssysteme enthalten eine Text-to-Speech-Technologie. Apple® Snow Leopard® bietet ‚Text-to-Speech‘-Einstellungen, die sowohl in einem ‚Sprache‘-Abschnitt der ‚Systemeinstellungen‘ als auch in einem ‚Universal Access‘-Abschnitt verfügbar sind als Hilfe für Menschen mit Sehbehinderung. Die Wahlmöglichkeiten des Benutzers bezüglich der Text-to-Speech-Technologie umfassen die verwendete Stimme, die Sprechgeschwindigkeit, ob Warnungen oder Anwendungen, die Aufmerksamkeit erfordern, angesagt werden sollen und ob die Uhrzeit laut angesagt werden soll. ‚Universal Access‘ bietet Zugriff auf das ‚VoiceOver Utility‘, das mehr Optionen zur Steuerung der Stimme bietet. Dies ist ein Beispiel für die Anwendungskategorie, die als Bildschirmlesegeräte oder persönliche Lesegeräte bezeichnet wird.

Neben der Unterstützung sehbehinderter Menschen können Screenreader eine Vielzahl von Funktionen erfüllen. Sie können auditiven Lernenden den Zugang zu Lehrmaterial auf die für sie am hilfreichsten Weise ermöglichen. Sie können beim Fremdsprachenerwerb behilflich sein. Weitere Vorteile dieser Lesegeräte sind das Korrekturlesen und die Verringerung der Augenbelastung. Vielleicht noch wichtiger, weil sie alles auf dem Bildschirm lesen können und werden, können sie es Menschen ermöglichen, die – aus dem einen oder anderen Grund – die Fähigkeit zu sprechen verloren haben, an einem Gespräch teilzunehmen, und die Stimme, mit der eine Person kommuniziert, kann gemacht werden aus aufgenommenem Material ihrer eigenen Stimme, sofern diese verfügbar ist. Der Filmkritiker Roger Ebert, der aufgrund einer Operation die Sprachfähigkeit verlor, nachdem er eine der Mac OS-Stimmen verwendet hatte, ließ eine Stimme aus Tonbändern seiner eigenen Sprache erstellen.

Das sprachaktivierte E-Mail- und SMS-Zugriffsprogramm namens iLane® ist ein Beispiel für eine Text-to-Speech-Technologie, die in einem Fahrzeug verwendet werden soll und den Zugriff auf Nachrichten unterwegs sicherer macht. Da E-Mail- und Textnachrichten laut wiedergegeben werden und der Fahrer per Sprachaktivierung auf die Technologie zugreift, muss der Fahrer den Blick nicht von der Straße nehmen, um auf diese Mitteilungen zuzugreifen und/oder darauf zu reagieren. Andere Geräte sind speziell dafür gemacht, GPS-Daten zu vokalisieren und Bücher laut vorzulesen: Dies ist bei einer Reihe von E-Book-Readern der Fall.