¿Qué es la transcripción automática?

La transcripción automática es el proceso de producir una transcripción escrita del habla hablada o grabada mediante el uso de computadoras y sin intervención humana directa. La transcripción automática precisa requiere un software de transcripción de alta calidad y un dispositivo que pueda recibir información auditiva con precisión. En general, también es necesario que el discurso o la grabación que se transcriba esté razonablemente libre de distorsión e interferencia del ruido de fondo. También se han intentado transcribir música con el uso de computadoras que ejecutan software de transcripción especializado. La transcripción de música implica escribir las notas de una pieza musical dada, particularmente cuando no hay una notación preexistente para esa música, como es el caso de los solos improvisados.

Un buen software de transcripción es necesario para una transcripción automática exitosa. El software es responsable de procesar la entrada auditiva, separando un flujo continuo de lenguaje en palabras separadas, reconociendo esas palabras y representándolas correctamente en el texto. Una falla en cualquier etapa de este proceso generalmente da como resultado una transcripción que difiere algo del material fuente. Un buen software de transcripción automática debería ser capaz de reconocer las sutiles diferencias entre palabras similares y compensar los diversos estilos y velocidades del habla. Los acentos difíciles de entender tienden a ser problemáticos incluso para el mejor software de transcripción.

Algunas personas usan software de transcripción automática porque prefieren el dictado a escribir o escribir directamente su texto. Algunas formas de software de transcripción automática son particularmente buenas para este propósito porque pueden “aprender” las voces de las personas cuyas palabras están transcribiendo. En tales casos, la transcripción automática no se utiliza para crear transcripciones de voz de una variedad de fuentes diferentes, por lo que no es necesario que el software esté abierto a una amplia variedad de patrones de voz. Permitir este proceso de optimización, que puede ocurrir durante el uso extendido del software por una persona o durante una calibración preliminar, puede aumentar en gran medida la precisión y la velocidad potencial del dictado.

Desafortunadamente, las computadoras no son tan adecuadas para reconocer de manera consistente y precisa el habla humana como los humanos. No pueden, por ejemplo, utilizar pistas contextuales si no comprenden una palabra en particular. Como tal, a menudo es necesario que un humano revise las transcripciones creadas a través de la transcripción automática. Los errores menores en el formato y varios errores en la transcripción son, en muchos casos, comunes a menos que el discurso transcrito sea muy claro. Aún así, el uso de la transcripción computarizada puede crear rápidamente una base sólida para una transcripción que solo requiere una intervención humana limitada antes de su presentación o uso.

Inteligente de activos.