Che cos'è un corpus di discorsi?

Un corpus vocale, noto anche come corpus parlato, è una raccolta di discorsi conservati in formato audio o testo. Queste raccolte sono utili nello sviluppo di software per il parlato e nella conduzione di studi linguistici. Le due varietà di corpus del discorso sono il discorso spontaneo e il discorso letto.
È importante definire cosa significano le parole “discorso” e “corpus”. Il discorso comprende raccolte di pensieri e fatti, di solito in forma parlata. Si può anche considerare qualsiasi enunciato parlato come discorso. Un corpus, a sua volta, fa riferimento a una raccolta formale di varie informazioni.

Gli utenti generalmente creano un corpus vocale tramite registrazioni audio o trascrizioni basate su testo. Le registrazioni possono essere effettuate tramite tecnologie di archiviazione del suono e archiviate, spesso come file MP3 in database elettronici, per creare un corpus. Un trascrittore, invece, converte il discorso parlato in una forma scritta, che viene poi compilata con altre trascrizioni.

Qualsiasi tipo di discorso può essere trovato in un corpus vocale, ma tali database sono generalmente divisi in due categorie. Il primo, il discorso spontaneo, contiene discorsi non formalizzati che una persona potrebbe pronunciare, come quelli che si trovano nelle conversazioni o nella narrazione orale. I discorsi letti, invece, hanno una struttura più formalizzata e pre-programmata. Gli esempi potrebbero includere discorsi politici, telegiornali e letture di audiolibri. Alcune varietà possono dipendere dal contesto specifico, come le interviste.

Uno dei principali vantaggi degli strumenti del corpus vocale è la loro utilità pratica nell’aiutare a creare software basato sul parlato. Ad esempio, molti computer e altri dispositivi elettronici presentano funzionalità di riconoscimento vocale come opzione, come la rilettura del testo digitato, la trasformazione delle parole pronunciate in testo o l’identificazione di un oratore in base a tratti vocali unici. Le estrazioni da un corpus vocale potrebbero aiutare a migliorare questa tecnologia applicando serie di statistiche basate sulla matematica chiamate modelli acustici a ogni singolo suono. Inoltre, i database possono aiutare nello sviluppo di nastri audio per l’apprendimento delle lingue.

Queste funzioni si collegano a un’altra applicazione per un corpus vocale. Vale a dire, gli studiosi possono prendere questi file audio o scritti conservati e studiare le sottili variazioni grammaticali che compongono il linguaggio. Pertanto, un corpus vocale può essere uno strumento prezioso per apprendere la pronuncia, l’ordine delle parole e altri modelli linguistici. I ricercatori possono ulteriormente confrontare somiglianze e differenze in vari dialetti e lingue regionali se creano una raccolta con più lingue o un corpus multilingue. La valutazione dei corpora che coinvolgono il discorso è una concentrazione di ricerca specializzata nota come linguistica dei corpora e la sua implementazione computerizzata è chiamata linguistica computazionale.

Molti database di trascrizione includono notazioni o tag che contengono informazioni sui singoli componenti in una parte di testo. Questo processo è chiamato annotazione. Nel processo di astrazione, i linguisti documenteranno e tradurranno vari termini in un discorso. Tale input può essere utile se un individuo desidera conoscere civiltà sconosciute attraverso i testi. La fase finale dello studio del corpus comporta l’analisi o la derivazione di confronti e ideali teorici da una raccolta di componenti del discorso.