¿Qué es la minería de audio?

La minería de audio se usa generalmente en software de reconocimiento de voz y análisis de música. Esta tecnología le da al usuario la capacidad de buscar a través del audio de voz o música que ha sido analizado para características específicas. Cuando se utiliza en la tecnología de reconocimiento de voz, la minería de audio identifica las palabras habladas en el audio y las coloca en un archivo con capacidad de búsqueda. Esta función puede ser útil para los estudiantes o aquellos en el mundo empresarial que asisten a muchas reuniones porque permite al usuario navegar más fácilmente la información de actualidad de las presentaciones de discursos. Este tipo de análisis también se puede utilizar en música para determinar características como pulsaciones por minuto (BPM), clave musical y estructura musical, información que se emplea para clasificar la música.

En el reconocimiento de voz, donde la tecnología se usa con mayor frecuencia, se emplea la minería de audio para crear un modelo acústico. Un modelo acústico programa un software de reconocimiento de voz para reconocer patrones de voz como palabras. Esta tecnología se desarrolla mediante la extracción de audio de una grabación de una frase hablada, que se compara con el texto que coincide con la frase hablada. La computadora utiliza la información para reconocer palabras cuando el usuario emite sonidos similares a los del modelo acústico. Se utiliza un modelo acústico en combinación con un archivo que le dice al programa de reconocimiento de voz qué idioma interpretar y qué patrones de palabras es probable que se pronuncien en ciertas oraciones y situaciones.

Los músicos y los oyentes de música pueden beneficiarse de la minería de audio en la música. A veces, el software de música que clasifica la música por género utiliza la minería de audio para organizar la música. El proceso identifica y agrupa archivos de música con similitudes de sonido que ocurren con frecuencia en géneros musicales. Aunque esta tecnología puede facilitar la organización de la música y la búsqueda de música nueva, puede cometer errores al clasificar canciones que tienen características medidas similares pero un sonido general diferente. El software de análisis de audio puede ser útil para los músicos, especialmente para los compositores, porque permite al compositor saltar a partes específicas de la estructura de la canción, incluidos los cambios de clave musical y las palabras dentro de la letra.

El fabricante de software de reconocimiento de voz Dragon® vende un programa llamado AudioMining® que transcribe archivos de audio y marca los archivos para que se puedan buscar texto. Dragon es un fabricante de programas de lingüística informática, el término técnico para el campo del software diseñado para interpretar el habla. La minería de audio, cuando se usa como dos palabras, es un término general que se refiere al análisis de un archivo de sonido para un determinado conjunto de características de audio. Otros fabricantes de software de minería de audio incluyen Nuance® y Nexidia®.