Un corpus testuale è una raccolta di testi, parlati o scritti, che costituisce la base per la ricerca linguistica dei corpora. La memorizzazione di queste grandi banche di testi consente ai ricercatori di analizzare vari aspetti di qualsiasi lingua. Un corpus testuale è un modo efficiente per condurre ricerche perché, una volta raccolto il materiale, può essere utilizzato per indagare su una varietà di questioni relative alla lingua, tra cui morfologia, sintassi, vocabolario e pragmatica. A differenza dei vecchi metodi di ricerca linguistica, un corpus di testo consente ai ricercatori di guardare la lingua in base a come viene effettivamente utilizzata nel contesto, piuttosto che a come potrebbe essere utilizzata ipoteticamente. I linguisti in genere hanno accesso a campioni di dati molto più ampi rispetto a quando dovevano limitarsi ai dati che potevano raccogliere autonomamente in un periodo di tempo limitato con risorse finanziarie limitate.
I corpora sono generalmente memorizzati in un computer, quindi è possibile creare programmi software per facilitare la ricerca. Un modo comune per utilizzare un corpus di testo è contare il numero totale di parole nei testi, quindi contare e classificare il numero di volte in cui sono apparse determinate parole. Il rapporto che viene creato tra il numero di parole totali e le parole specifiche è noto come legge di Zipf. Questo rapporto aiuta a spiegare la frequenza delle parole in una lingua. Comprendere la legge di Zipf aiuta i programmatori di computer a progettare software per computer che soddisfi le esigenze di un determinato linguaggio. Possono contare e prevedere la frequenza con cui determinate parole e frasi verranno utilizzate come input.
Un altro modo per utilizzare un corpus testuale è etichettare elementi specifici in esso che il ricercatore vuole studiare. Un esempio di come potrebbe essere utilizzato è contare quante volte la voce passiva appare in diversi generi di testo. Il tagging è stato utile anche nella creazione di programmi per computer che assistono le persone nella loro vita quotidiana. L’etichettatura parziale del discorso è stata fondamentale per lo sviluppo di software di riconoscimento vocale. In inglese, ad esempio, la stessa parola potrebbe avere più di una parte del discorso. Le parole multisillabiche sono spesso sottolineate in modo diverso per segnalare quale parte del discorso viene utilizzata. Il sostantivo “oggetto” porta l’accento sulla prima sillaba, ma il verbo “oggetto” è accentato sulla seconda sillaba. Contrassegnare la forma del sostantivo di “oggetto” aiuta il programma per computer sia a leggerlo correttamente ad alta voce sia a riconoscerlo quando “oggetto” viene detto da un essere umano.
I corpora di testo sono utili sia per la linguistica umana che per la linguistica computazionale. Consentono di condurre ricerche che aiutino le persone a comprendere meglio il linguaggio utilizzato dagli umani, il che a sua volta aiuta a sviluppare il linguaggio utilizzato dai computer. Sono stati fatti grandi passi avanti nella tecnologia di riconoscimento vocale, consentendo ai consumatori di controllare verbalmente i computer nei loro uffici, case e veicoli. I continui progressi consentiranno agli umani di comunicare con i computer in modo naturale come fanno tra loro.