Qu’est-ce qu’un corpus de discours ?

Un corpus de discours, également connu sous le nom de corpus parlé, est une collection de discours conservés au format audio ou texte. Ces collections sont utiles pour développer des logiciels vocaux et mener des études linguistiques. Les deux variétés de corpus de parole sont la parole spontanée et la parole lue.
Il est important de définir ce que signifient les mots discours et corpus. La parole comprend des ensembles de pensées et de faits, généralement sous une forme orale. On peut également considérer n’importe quel énoncé parlé comme un discours. Un corpus, à son tour, fait référence à une collection formelle de divers éléments d’information.

Les utilisateurs créent généralement un corpus vocal via des enregistrements audio ou des transcriptions textuelles. Les enregistrements peuvent être réalisés via des technologies de stockage du son et stockés – souvent sous forme de fichiers MP3 dans des bases de données électroniques – pour créer un corpus. Un transcripteur, quant à lui, convertit la parole orale en une forme écrite, qui est ensuite compilée avec d’autres transcriptions.

Tout type de parole peut être trouvé dans un corpus de parole, mais ces bases de données sont généralement divisées en deux catégories. Le premier, le discours spontané, contient les discours non formalisés qu’une personne peut prononcer, tels que ceux que l’on trouve dans les conversations ou dans la narration orale. Les discours lus, cependant, ont une structure plus formalisée et planifiée. Les exemples peuvent inclure des discours politiques, des émissions de nouvelles et des lectures de livres audio. Certaines variétés peuvent dépendre du contexte spécifique, comme les entretiens.

L’un des principaux avantages des outils de corpus vocaux est leur utilité pratique pour aider à créer des logiciels basés sur la parole. Par exemple, de nombreux ordinateurs et autres appareils électroniques proposent des fonctionnalités de reconnaissance vocale en option, telles que la lecture de texte tapé, la transformation de mots prononcés en texte ou l’identification d’un locuteur par des traits vocaux uniques. Les extractions d’un corpus de parole pourraient aider à améliorer cette technologie en appliquant des ensembles de statistiques à base mathématique appelés modèles acoustiques à chaque son individuel. De plus, les bases de données peuvent aider à développer des cassettes audio pour l’apprentissage des langues.

Ces fonctions sont liées à une autre application pour un corpus de parole. À savoir, les érudits peuvent prendre ces fichiers audio ou écrits préservés et étudier les subtiles variations grammaticales qui composent le langage. Par conséquent, un corpus vocal peut servir d’outil précieux pour l’apprentissage de la prononciation, de l’ordre des mots et d’autres modèles linguistiques. Les chercheurs peuvent comparer davantage les similitudes et les différences dans divers dialectes et langues régionales s’ils créent une collection avec plusieurs langues ou un corpus multilingue. L’évaluation des corpus impliquant la parole est une concentration de recherche spécialisée connue sous le nom de linguistique de corpus, et sa mise en œuvre informatisée est appelée linguistique informatique.

De nombreuses bases de données de transcriptions incluent des notations ou des balises contenant des informations sur les composants individuels d’un texte. Ce processus est appelé annotation. Dans le processus d’abstraction, les linguistes documenteront et traduiront divers termes dans un discours. Une telle contribution peut être utile si un individu souhaite en savoir plus sur des civilisations inconnues à travers des textes. L’étape finale de l’étude du corpus implique l’analyse ou l’obtention de comparaisons et d’idéaux théoriques à partir d’un ensemble de composants de la parole.