¿Qué es un modelo acústico?

Un modelo acústico es esencialmente un mapa de la voz en relación con una serie de palabras impresas. Esta tecnología se utiliza en programas de reconocimiento de voz para ayudar a una computadora a aprender a reconocer los patrones del habla de una persona. Un modelo acústico es uno de los dos archivos principales necesarios para ejecutar un programa de reconocimiento de voz; el otro es el modelo de lenguaje, que indica posibles palabras y patrones de habla que puede utilizar el hablante. Estos modelos se crean comparando los detalles de sonido de un archivo de audio hablado con el texto de las palabras habladas.

El software de reconocimiento de voz es un software diseñado para reconocer y transcribir o responder a las palabras que dice una persona. Muchos sistemas operativos están diseñados con capacidades de reconocimiento de voz básicas integradas que el usuario puede activar y desactivar. Las capacidades de reconocimiento de voz en los sistemas operativos generalmente le dan al usuario la capacidad de controlar la computadora y escribir palabras en la pantalla usando su voz.

Para acceder al software de reconocimiento de voz, un usuario necesita un micrófono para transmitir su voz a la computadora, además de un programa que procesa el sonido. Si bien muchas computadoras tienen micrófonos integrados, un micrófono de diadema externo permite al usuario el beneficio de un sonido de voz más claro y la libertad de moverse por la habitación mientras habla. Las marcas de software de reconocimiento de voz independiente incluyen LumenVox®, Loquendo® y Dragon®.

La mayoría de los programas de reconocimiento de voz tienen una programación de modelo acústico que permite que el programa reconozca variaciones en la pronunciación. Usan patrones en el sonido de la voz del hablante para identificar palabras en el habla. Muchos están diseñados con software de configuración diseñado para ayudar al usuario a crear un modelo acústico diseñado para interpretar su propia voz. Algunos programas avanzados de reconocimiento de voz pueden identificar e interpretar varios idiomas, a menudo con una pequeña cantidad de información sonora. Cuanto más avanzado sea un programa de reconocimiento de voz, es más probable que interprete con precisión las palabras en función de su contexto, incluido el lugar de una oración en el que se pronuncia una palabra.

El campo de estudio que desarrolla la tecnología de reconocimiento de voz se denomina lingüística computacional. La lingüística computacional implica el estudio y el diseño que crea software programado para comprender el habla humana. Este campo a menudo incorpora información del estudio de la psicología para crear modelos acústicos que pueden interpretar el habla con mayor precisión.

La palabra «acústico» generalmente se refiere a cualquier cosa que tenga que ver con el sonido. Aunque los modelos acústicos se utilizan con mayor frecuencia en el reconocimiento de voz, también se pueden utilizar en música. Un modelo acústico de una pista de música puede identificar propiedades como latidos por minuto, las claves musicales o tonos dominantes en la música. Esta información puede ser utilizada por un programa de computadora para identificar una pista de música, o puede usarse para determinar vagamente el género en el que es probable que la música esté categorizada. Los modelos acústicos también se utilizan en un campo de estudio llamado psicoacústica, en el que los investigadores esperan aprender a estructurar la música que afecta de manera predecible al cerebro.