¿Qué es la síntesis de voz?

La síntesis del habla es un proceso en el que la comunicación verbal se replica a través de un dispositivo artificial. Una computadora que convierte texto en voz es un tipo de sintetizador de voz.

Las primeras formas de síntesis de voz se implementaron a través de máquinas diseñadas para funcionar como el tracto vocal humano. La máquina parlante creada por Wolfgang von Kempelen en el 1700 es un ejemplo. Con este dispositivo, el habla se producía a través de un fuelle de cocina, una caña de gaita y una campana de clarinete. El fuelle de la cocina fue diseñado para actuar como un pulmón, mientras que la glotis (el área de las cuerdas vocales) se representó a través de la caña de la gaita. La campana del clarinete servía de boca.

El funcionamiento del dispositivo fue completamente manual. La mano derecha controlaba una serie de palancas mientras que la mano izquierda manipulaba la campana (boca) del clarinete. También existía la opción de tapar las ‘fosas nasales’, para producir un sonido menos nasal. De cualquier manera, siempre que se usaran correctamente los controles básicos, la máquina recibía flujo de aire. Este flujo de aire determinaba los tipos de sonidos que se producirían.

Las máquinas parlantes posteriores a lo largo de los siglos XVIII y XIX mantuvieron esta configuración, aunque hubo mejoras. Por ejemplo, a finales del siglo XIX, Joseph Faber creó una máquina parlante que podía recibir entradas a través de un teclado y un pedal. La máquina también fue muy creativa, ya que el sonido salió a través de una ‘cara’ artificial.

Cuando llegó el siglo XX, las innovaciones en la electrónica permitieron que la síntesis de voz tomara una dirección aún más poderosa. Aunque la premisa de imitar el tracto vocal humano seguía siendo la misma, las máquinas parlantes de principios del siglo XX podían producir mejores sonidos ya que la entrada era más precisa.

Sin embargo, no fue hasta el advenimiento de las computadoras que la síntesis de voz se pudo utilizar fuera del ámbito del entretenimiento. Esto se debe principalmente a que los sintetizadores de voz podrían almacenarse en software en lugar de en una máquina separada. Además, con las computadoras como ayuda, la síntesis de voz podría adoptar una forma diferente; utilizando voces humanas como fuente principal de sonido.

Esta forma de síntesis de voz se conoce como concatenativa. El proceso funciona conectando varias grabaciones del habla humana. El sonido resultante es mucho más natural y agradable al oído. Esto contrasta con los programas que usan síntesis articulatoria, donde el habla se replica a través de un modelo computarizado del tracto vocal.
Los sintetizadores de voz comerciales pueden emplear métodos de concatenación o articulación, pero ambos pueden lograr el mismo objetivo; poder dar a las personas la oportunidad de escuchar mensajes de texto. Esto es especialmente útil en situaciones en las que la lectura es molesta o imposible.

En el mundo empresarial, este tipo de situaciones son muy comunes, especialmente para las transacciones telefónicas. Sin las alternativas de conversión de texto a voz (TTS), los dueños de negocios tendrían que gastar dinero contratando aún más personal de servicio al cliente. Las soluciones sintetizadas evitan este problema, ya que todo se hace por computadora; no un ser humano.
El habla sintetizada también juega un papel en la vida diaria, especialmente para las personas discapacitadas. Los relojes parlantes, los diccionarios y otros dispositivos pueden facilitar las cosas a las personas que tienen problemas para ver o leer. El habla sintetizada incluso puede dar voz a personas que no podían hablar en absoluto. Steven Hawking, un físico famoso, es un ejemplo destacado. Dado que la enfermedad de Lou Gehrig lo ha dejado mudo, Hawking usa un sintetizador de voz para comunicarse con la gente.

También hay aplicaciones TTS disponibles para ayudar a las personas con diversas actividades informáticas. Para obtener este tipo de aplicaciones, la mayoría de los usuarios deberán comprar software por separado o descargar parches. La última opción suele ser gratuita, según el sistema operativo o el programa de procesamiento de texto que se utilice. Sin embargo, si una persona decide comprar un software por separado, podría tener acceso a un sistema de mayor calidad. Se pueden ver ejemplos específicos a través de Natural Reader 7 y Text Aloud 2.
En última instancia, la síntesis de voz es una tecnología que ha revolucionado la forma en que se comunica la humanidad. En cierto sentido, le da al texto vida propia. También le da al mundo la oportunidad de escuchar los pensamientos de personas brillantes que normalmente no habrían tenido voz.