¿Qué es un Speech Corpus?

Un corpus de discursos, también conocido como corpus hablado, es una colección de discursos conservados en formato de audio o texto. Estas colecciones son útiles para desarrollar software de voz y para realizar estudios lingüísticos. Las dos variedades de corpus del habla son el habla espontánea y el habla leída.
Es importante definir qué significan las palabras «discurso» y «corpus». El habla comprende colecciones de pensamientos y hechos, generalmente en forma hablada. También se puede ver cualquier enunciado hablado como discurso. Un corpus, a su vez, hace referencia a una colección formal de diversas piezas de información.

Los usuarios generalmente crean un corpus de voz a través de grabaciones de audio o transcripciones basadas en texto. Las grabaciones pueden realizarse mediante tecnologías de almacenamiento de sonido y almacenarse, a menudo como archivos MP3 en bases de datos electrónicas, para crear un corpus. Un transcriptor, por otro lado, convierte el discurso hablado en una forma escrita, que luego se compila con otras transcripciones.

Cualquier tipo de discurso se puede encontrar en un corpus de discurso, pero estas bases de datos generalmente se dividen en dos categorías. El primero, el discurso espontáneo, contiene discursos no formalizados que una persona puede dar, como los que se encuentran en conversaciones o en una narración oral. Los discursos de lectura, sin embargo, tienen una estructura más formalizada y planificada de antemano. Los ejemplos pueden incluir discursos políticos, transmisiones de noticias y lecturas de libros de audio. Algunas variedades pueden depender del contexto específico, como las entrevistas.

Una de las principales ventajas de las herramientas de corpus de voz es su utilidad práctica para ayudar a crear software basado en voz. Por ejemplo, muchas computadoras y otros dispositivos electrónicos presentan características de reconocimiento de voz como una opción, como leer texto escrito, transformar palabras habladas en texto o identificar a un hablante por rasgos vocales únicos. Las extracciones de un corpus de voz podrían ayudar a mejorar esta tecnología mediante la aplicación de conjuntos de estadísticas basados en matemáticas llamados modelos acústicos a cada sonido individual. Además, las bases de datos pueden ayudar a desarrollar cintas de audio para el aprendizaje de idiomas.

Estas funciones se relacionan con otra aplicación para un corpus de discursos. Es decir, los académicos pueden tomar estos archivos de audio o escritos conservados y estudiar las sutiles variaciones gramaticales que componen el lenguaje. Por lo tanto, un corpus de habla puede servir como una herramienta valiosa para aprender sobre pronunciación, orden de palabras y otros modelos lingüísticos. Los investigadores pueden comparar aún más las similitudes y diferencias en varios dialectos e idiomas regionales si crean una colección con varios idiomas o un corpus multilingüe. La evaluación de corpus que involucran el habla es una concentración de investigación especializada conocida como lingüística de corpus, y su implementación computarizada se llama lingüística computacional.

Muchas bases de datos de transcripciones incluyen anotaciones o etiquetas que contienen información sobre los componentes individuales en un fragmento de texto. Este proceso se llama anotación. En el proceso de abstracción, los lingüistas documentarán y traducirán varios términos en un discurso. Esta información puede ser útil si una persona desea aprender sobre civilizaciones desconocidas a través de textos. El paso final del estudio del corpus implica el análisis o la derivación de comparaciones e ideales teóricos a partir de una colección de componentes del habla.