Lingüística de corpus o estudo da linguagem usando exemplos da vida real. Não é um ramo da linguística, mas uma metodologia ou abordagem. Corpus, a palavra latina para “corpo”, refere-se ao corpo de textos naturais, e a abordagem envolve a descoberta de padrões de uso da linguagem através da análise do corpus. A linguística do corpus está voltando, pois os programas de computador revolucionaram a abordagem.
Os diários dos pais do discurso de uma criança quando ela adquire a linguagem é um exemplo simples de um corpus que pode ser estudado para aprender padrões de linguagem. O ensino de línguas estrangeiras na primeira metade do século XX costumava usar corpora da língua-alvo para compilar listas de vocabulário para os alunos. O eminente linguista Noam Chomsky não considerou o uso de corpora uma ferramenta válida, pois acreditava que a competência linguística era mais importante que os dados de desempenho. A linguística inicial dos corpus foi amplamente baseada na suposição de que há um número limitado de sentenças em um idioma natural e que essas sentenças podem ser coletadas e avaliadas.
Depois de cair em desuso nas décadas de 60 e 70, a linguística do corpus está passando por um renascimento devido ao uso metodológico do computador. O programa de concordância é o nome do software mais usado pelos linguistas. Enquanto pesquisar padrões em um corpus de milhões de palavras levaria muito tempo para um ser humano e os resultados seriam menos precisos, um computador pode pesquisar e recuperar informações em meros segundos. Ele pode calcular a frequência, classificar dados e explorar corpora de maneiras que eram impossíveis no passado.
A análise baseada em corpus pode analisar como o registro afeta a linguagem; padrões de uso da linguagem, como o modo como homens e mulheres fazem uso diferente de perguntas sobre marcas; a extensão em que os padrões de linguagem são usados; e os fatores que afetam a variabilidade do uso da linguagem. O ensino pode se beneficiar da lingüística do corpus no design do plano de estudos, no desenvolvimento dos materiais utilizados e no tipo de atividades utilizadas na sala de aula. Os alunos poderiam se beneficiar da abordagem, sendo capazes de determinar com mais clareza os diferentes usos e significados das palavras comuns, as diferenças inerentes à linguagem escrita e falada e as frases e colocações que eles poderiam usar. O corpo de dados que é o corpus é constantemente atualizado e é o produto de interações sociais da vida real. Assim, os corpora são dados naturalistas que podem ser facilmente acessados e os resultados podem ser generalizados.