¿Qué es la compresión del habla?

La compresión de voz implica la compresión de datos de audio en forma de voz. El habla es una forma algo única de datos de audio, con una serie de necesidades que deben abordarse durante la compresión para garantizar que sea inteligible y razonablemente agradable de escuchar. Se han diseñado varios programas de software pensando específicamente en la compresión de voz, incluidos programas que pueden realizar funciones adicionales, como cifrar los datos comprimidos por motivos de seguridad.

Los datos de audio sin procesar pueden ocupar una gran cantidad de memoria. Durante la compresión, los datos se comprimen para que ocupen menos espacio. Esto libera espacio en el almacenamiento y también se vuelve importante cuando los datos se transmiten a través de una red. En una red de telefonía móvil, por ejemplo, si se usa compresión de voz, se pueden acomodar más usuarios en un momento dado porque se necesita menos ancho de banda. Asimismo, la compresión de voz se vuelve importante en las teleconferencias y otras aplicaciones; enviar datos es caro y cualquier cosa que reduzca el volumen de datos que se deben enviar puede ayudar a reducir los costos.

El habla es un tipo de datos de audio relativamente simple y ampliamente estudiado, lo que hace que sea fácil de comprimir de alguna manera. Sin embargo, es importante asegurarse de que la compresión conserve la integridad del habla. Si los datos se distorsionan de alguna manera, puede ser difícil de entender y también puede ser difícil de escuchar. Por lo tanto, la compresión de voz debe realizarse de manera que conserve las cualidades clave de los datos. Es fácil que el habla a la canción sea «incorrecta» para un oyente, lo que interfiere con la comprensión de los datos transmitidos.

Los programas que manejan la creación de archivos de audio pueden tener una opción de compresión disponible. Después de grabar o generar el archivo de audio sin procesar, las personas pueden elegir entre varios parámetros para que el archivo se comprima a un tamaño más manejable. La compresión de voz también se puede hacer sobre la marcha, como cuando las personas usan teléfonos celulares y la red comprime los datos mientras genera una señal de datos para que las personas puedan hablar en tiempo real.

Si los datos también necesitan encriptarse, esto puede hacerse en tiempo real o en una segunda pasada que encripta los datos comprimidos. En este caso, alguien que quiera escuchar el discurso deberá descifrar los datos y ejecutarlos a través de un programa, que puede estar integrado en un equipo como un teléfono seguro, que es capaz de leer datos comprimidos.