¿Qué es una lista de frecuencias?

Una lista de frecuencias es una herramienta para el análisis lingüístico cuantitativo, una lista de todo lo que aparece en un bloque de texto elegido y con qué frecuencia ocurre. El análisis lingüístico es un campo interdisciplinario que estudia la estructura del lenguaje y cómo se utiliza. Combinando elementos de antropología, matemáticas, informática y lógica, el análisis lingüístico se utiliza para proyectos como traducción mecánica, criptografía y descifrado de escritos antiguos.

Las listas de frecuencias pueden ser listados de palabras o de letras. Las frecuencias de letras se utilizan normalmente en criptografía. Uno de los códigos más simples es un cifrado de sustitución, donde cada letra se reemplaza con otra letra o símbolo. Por ejemplo, el mensaje «ataque al amanecer» podría codificarse como «zoozhl zo azqp». El beneficio de los cifrados de sustitución es que no requieren un libro de códigos, pero la debilidad es que se pueden descifrar comparando la frecuencia de letras y combinaciones de letras dentro del mensaje con una lista de frecuencias de uso común.

En La aventura de los hombres bailarines de Arthur Conan Doyle, el detective ficticio Sherlock Holmes utiliza el análisis de frecuencia para descifrar un cifrado de sustitución. Históricamente, los creadores de códigos intentaron varios trucos para hacer que sus cifrados fueran más difíciles de descifrar con una lista de frecuencias: cifrados rotativos donde la sustitución utilizada dependía de la posición de una letra dentro del mensaje, eliminando o codificando espacios para que las frecuencias de las palabras no se pudieran usar, manteniendo los mensajes breves y evitando las palabras esperadas para que los descifradores de códigos no tengan suficiente muestra para usar en el análisis de frecuencia. En última instancia, cualquier cifrado se puede descifrar con una muestra lo suficientemente grande, por lo que los protocolos de cifrado más sofisticados se han convertido en estándar.

Las listas de frecuencia de palabras y tipos de palabras también se utilizan en los estudios de lenguas antiguas. Cuando Jean-Francois Champollion tradujo la Piedra de Rosetta en la década de 1820, su proceso utilizó una mezcla de comparar frecuencias y transliteraciones para reconstruir el lenguaje jeroglífico. Los estudios han demostrado que para las lenguas antiguas, como para el inglés moderno, un vocabulario básico de 1,500 a 2,000 palabras cubre entre el 85 y el 90 por ciento de los textos comunes, un nivel que permite al lector ampliar su vocabulario a partir del contexto.

La ley de Zipf, llamada así por el profesor de lingüística de Harvard George Kingsley Zipf, es una observación empírica sobre el comportamiento de las clasificaciones de frecuencia. Establece que la frecuencia de un evento es inversamente proporcional a la clasificación del evento. El evento es generalmente una palabra o letra en una lista de frecuencia lingüística, pero la ley de Zipf se ha generalizado para cubrir otros fenómenos como la población de la ciudad y los ingresos corporativos.

Una lista de frecuencias es una herramienta importante en los proyectos para ayudar a las computadoras a entender el lenguaje hablado y escrito. La traducción mecánica, el uso de computadoras para traducir documentos de un idioma a otro, es un ejemplo. Otro ejemplo es Watson, la supercomputadora de lenguaje natural que se presentó como concursante en el programa de televisión Jeopardy! en febrero de 2011. Las frecuencias tanto de palabras como de tipos de uso se incorporan a su programación como una herramienta para encontrar significado.