¿Qué es el reconocimiento de voz?

El reconocimiento de voz, o reconocimiento de voz, es una tecnología informática que utiliza la entrada de audio para ingresar datos en lugar de un teclado. Hablar por un micrófono, por ejemplo, produce el mismo resultado que escribir palabras manualmente con un teclado. En pocas palabras, el software de reconocimiento de voz está diseñado con una base de datos interna de palabras o frases reconocibles. El programa hace coincidir la firma de audio del habla con las entradas correspondientes en la base de datos.

Aunque convertir la voz en texto puede parecer fácil, es una tarea extremadamente difícil. El problema radica en la variedad virtualmente infinita de patrones de habla y acentos individuales, agravada por la tendencia humana natural a juntar las palabras.

Se utilizan varios modelos de software de reconocimiento de voz para una variedad de aplicaciones, desde el dictado personal hasta el enrutamiento comercial automatizado de llamadas, desde la ayuda a los discapacitados hasta la subtitulación de eventos deportivos y de noticias. Cada modelo se comporta de manera diferente y tiene sus propias capacidades y límites.

Los programas de reconocimiento de voz que requieren que el usuario “entrene” al software para reconocer sus patrones estilizados particulares de habla se denominan sistemas dependientes del hablante. Las personas suelen utilizar este tipo de programas en el hogar o en la oficina. Se pueden ingresar correos electrónicos, notas, cartas, datos y texto hablando por un micrófono.

Algunos sistemas de reconocimiento de voz, llamados sistemas de voz discretos, requieren que el usuario hable clara y lentamente y separe las palabras. Los sistemas de habla continua están diseñados para comprender un modo de hablar más natural.
Los sistemas de voz discretos se utilizan ampliamente para el enrutamiento de servicio al cliente. El sistema es independiente del hablante, pero comprende solo un pequeño grupo de palabras o frases. La persona que llama tiene la opción de responder una pregunta, generalmente con “sí” o “no”. Después de recibir una respuesta, el sistema lleva a la persona que llama al siguiente nivel. Si la persona que llama responde con una respuesta única, la respuesta automática suele ser: “Lo siento, no te entendí; inténtelo de nuevo ”, con una repetición de la pregunta y las respuestas disponibles. Este tipo de reconocimiento de voz también se conoce como reconocimiento con restricciones gramaticales.

El habla continua es una forma más sofisticada de software de reconocimiento de voz, en la que la persona que llama puede hablar de forma natural para explicar un problema o solicitar un servicio. Este programa está diseñado para seleccionar palabras o frases clave y hacer una estimación estadística de lo que quiere el cliente. Hablar claramente ayuda al programa a identificar la necesidad. Este tipo de sistema tiene una base de datos mucho más intensiva que los sistemas de voz discretos y también se conoce como reconocimiento de lenguaje natural.

El reconocimiento automático de voz (ASR) es un modelo de reconocimiento de voz diseñado para dictado. Este software se diferencia de los modelos anteriores en que no se esfuerza por comprender lo que se dice, solo por identificar las palabras pronunciadas. Dado que muchas palabras en inglés suenan iguales, es fácil cometer errores. El software ASR se encuentra a menudo en grabadoras de voz digitales.