¿Qué es el vocabulario controlado?

El vocabulario controlado es un concepto en ciencias de la computación y programación de computadoras que implica el uso solo de términos previamente acordados o aprobados al construir bases de datos relacionales, metadatos de búsqueda u otros sistemas en los que se usan palabras legibles por humanos para marcar información para su posterior recuperación. La metodología de usar un vocabulario controlado para clasificar la información contrasta directamente con el concepto de vocabulario de lenguaje natural, en el que no hay términos acordados y todas las palabras que se usan están conectadas por relaciones ponderadas. Además de las palabras de nivel superior que se utilizan en un vocabulario controlado, se pueden utilizar palabras de apoyo para que los sinónimos u otros términos que estén fuertemente asociados con el término de nivel superior puedan activar el uso de la palabra de nivel superior. Las principales diferencias que se miden entre los sistemas de lenguaje natural y los sistemas de vocabulario controlado son la relevancia de los resultados de una consulta utilizando las palabras, el volumen de información devuelta y la usabilidad general del sistema.

Hay muchos casos en los que se utiliza una colección de palabras o términos para hacer que la información arbitraria, en constante cambio o desorganizada sea más accesible para los usuarios. Los términos de búsqueda dentro de un motor de búsqueda de Internet, una base de datos de información corporativa e incluso una biblioteca de investigación digital son ejemplos de aplicaciones a través de las cuales se puede clasificar la información con términos de metadatos en lugar de una estructura jerárquica estricta. Las palabras que se utilizan para describir un objeto en tales situaciones crean una especie de índice de búsqueda de la mayor cantidad de información.

Se puede ver un ejemplo del uso de vocabulario controlado al considerar un sistema de archivo para una empresa. Los archivos deben categorizarse de manera que se puedan recuperar de manera fácil y predecible. Si un archivo trata sobre automóviles, entonces podría archivarse en la categoría «automóviles». Si otra persona también tiene un archivo que trata sobre automóviles, sin un vocabulario controlado, el archivo puede colocarse bajo el título “automóviles”, lo que dificulta la búsqueda de los dos archivos con una sola búsqueda. Cuando se controlan las categorías, todos los archivos relacionados con los automóviles se colocarán bajo un solo encabezado acordado.

La ventaja de utilizar un vocabulario controlado es que la información se describe estrictamente de forma predecible. Esto significa que cualquier persona que conozca el vocabulario podrá buscar información con eficacia y precisión. Sin embargo, una complicación con el vocabulario es que los términos de búsqueda son más difíciles, si no imposibles, de generar automáticamente y por lo general requieren alguna intervención humana, por lo que convertir las bases de datos existentes para utilizar un vocabulario controlado es una gran tarea. Si el vocabulario no es lo suficientemente extenso, también existe la posibilidad de que una sola consulta genere un volumen de información tan grande que resulte poco práctico ordenar sin el uso de otro método de consulta.