Che cos’è un elenco di frequenze?

Un elenco di frequenza è uno strumento per l’analisi linguistica quantitativa, un elenco di tutto ciò che appare in un blocco di testo scelto e con quale frequenza si verifica. L’analisi linguistica è un campo interdisciplinare che studia la struttura del linguaggio e il modo in cui viene utilizzato. Combinando elementi di antropologia, matematica, informatica e logica, l’analisi linguistica viene utilizzata per progetti come traduzione meccanica, crittografia e decifrazione di scritti antichi.

Gli elenchi di frequenza possono essere elenchi di parole o di lettere. Le frequenze delle lettere vengono generalmente utilizzate nella crittografia. Uno dei codici più semplici è un cifrario a sostituzione, in cui ogni lettera viene sostituita con un’altra lettera o simbolo. Ad esempio, il messaggio “attacco all’alba” potrebbe essere codificato come “zoozhl zo azqp”. Il vantaggio dei cifrari a sostituzione è che non richiedono un libro di codici, ma il punto debole è che possono essere decifrati confrontando la frequenza delle lettere e delle combinazioni di lettere all’interno del messaggio con un elenco di frequenze di uso comune.

In The Adventure of the Dancing Men di Arthur Conan Doyle, il detective immaginario Sherlock Holmes usa l’analisi di frequenza per decifrare un codice sostitutivo. Storicamente, i codemaker hanno provato vari trucchi per rendere i loro cifrari più difficili da decifrare con un elenco di frequenze: cifrari a rotazione in cui la sostituzione utilizzata dipendeva dalla posizione di una lettera all’interno del messaggio, eliminando o codificando gli spazi in modo che le frequenze delle parole non potessero essere utilizzate, mantenendo i messaggi brevi ed evitando le parole previste in modo che i decodificatori non abbiano abbastanza campioni da utilizzare per l’analisi della frequenza. In definitiva, qualsiasi cifrario può essere violato con un campione sufficientemente grande, motivo per cui protocolli di crittografia più sofisticati sono diventati standard.

Elenchi di frequenza di parole e tipi di parole sono utilizzati anche negli studi sulle lingue antiche. Quando Jean-Francois Champollion tradusse la Stele di Rosetta nel 1820, il suo processo utilizzava una miscela di frequenze di confronto e traslitterazioni per mettere insieme il linguaggio geroglifico. Gli studi hanno dimostrato che per le lingue antiche, come per l’inglese moderno, un vocabolario di base da 1,500 a 2,000 parole copre l’85-90 percento dei testi comuni, un livello che consente al lettore di espandere il proprio vocabolario dal contesto.

La legge di Zipf, che prende il nome dal professore di linguistica di Harvard George Kingsley Zipf, è un’osservazione empirica sul comportamento delle classificazioni di frequenza. Essa afferma che la frequenza di un evento è inversamente proporzionale alla classifica dell’evento. L’evento è generalmente una parola o una lettera in un elenco di frequenza linguistica, ma la legge di Zipf è stata generalizzata per coprire altri fenomeni come le popolazioni delle città e gli utili aziendali.

Un elenco di frequenze è uno strumento importante nei progetti per aiutare i computer a dare un senso alla lingua parlata e scritta. La traduzione meccanica, l’uso del computer per tradurre documenti da una lingua all’altra, ne è un esempio. Un altro esempio è Watson, il supercomputer in linguaggio naturale che è stato presentato come concorrente nel programma televisivo Jeopardy! nel febbraio 2011. Le frequenze sia delle parole che dei tipi di utilizzo sono incorporate nella loro programmazione come strumento per trovare significato.