Un corpus de texto es una colección de textos, hablados o escritos, que es la base de la investigación lingüística de corpus. El almacenamiento de estos grandes bancos de textos permite a los investigadores analizar varios aspectos de cualquier idioma. Un corpus de texto es una forma eficaz de realizar una investigación porque una vez que se recopila el material, se puede utilizar para investigar una variedad de cuestiones relacionadas con el lenguaje, incluida la morfología, la sintaxis, el vocabulario y la pragmática. A diferencia de los métodos más antiguos de realizar investigaciones lingüísticas, un corpus de texto permite a los investigadores observar el lenguaje de acuerdo con cómo se usa realmente en contexto, en lugar de cómo podría usarse hipotéticamente. Los lingüistas suelen tener acceso a muestras de datos mucho más grandes que cuando tenían que limitarse a los datos que podían recopilar ellos mismos en un período de tiempo limitado con recursos financieros limitados.
Los corpora normalmente se almacenan en una computadora, por lo que se pueden crear programas de software para facilitar la investigación. Una forma común de usar un corpus de texto es contar el número total de palabras en los textos, luego contar y clasificar el número de veces que aparecieron ciertas palabras. La relación que se crea entre el número total de palabras y palabras específicas se conoce como ley de Zipf. Esta proporción ayuda a explicar la frecuencia de las palabras en un idioma. Comprender la ley de Zipf ayuda a los programadores informáticos a diseñar software informático que satisfaga las demandas de un idioma determinado. Pueden contar y predecir la frecuencia con la que se utilizarán determinadas palabras y frases como entrada.
Otra forma de utilizar un corpus de texto es etiquetar elementos específicos que el investigador quiere estudiar. Un ejemplo de cómo se usaría esto es contar cuántas veces aparece la voz pasiva en diferentes géneros de texto. El etiquetado también ha sido útil para crear programas informáticos que ayuden a las personas en su vida diaria. El etiquetado de parte de la voz ha sido fundamental para el desarrollo de software de reconocimiento de voz. En inglés, por ejemplo, la misma palabra puede tener más de una parte del discurso. Las palabras de varias sílabas a menudo se acentúan de manera diferente para indicar qué parte del discurso se está utilizando. El sustantivo «objeto» tiene su acento en la primera sílaba, pero el verbo «objeto» se acentúa en la segunda sílaba. Etiquetar la forma nominal de «objeto» ayuda al programa de computadora a leerlo en voz alta correctamente y reconocerlo cuando un humano dice «objeto».
Los corpus de texto son útiles tanto para la lingüística humana como para la lingüística computacional. Permiten realizar investigaciones que ayuden a las personas a comprender mejor el lenguaje que usan los humanos, lo que a su vez ayuda a desarrollar el lenguaje que usan las computadoras. Se han realizado grandes avances en la tecnología de reconocimiento de voz, lo que permite a los consumidores controlar verbalmente las computadoras en sus oficinas, hogares y vehículos. Los avances continuos permitirán a los humanos comunicarse con las computadoras con tanta naturalidad como lo hacen entre sí.