A veces conocida como recuperación de información, la extracción de información (IE) es un proceso que se utiliza con sistemas informáticos para permitir que los datos relevantes se extraigan de conjuntos de datos más grandes, utilizando algún conjunto de criterios predefinidos. La idea detrás de la extracción de información es hacer posible identificar y asimilar fácilmente los datos que son relevantes para una actividad en particular, sin la necesidad de revisar manualmente grandes cantidades de información para encontrar los datos exactos requeridos. El proceso es similar a las ideas de minería de conceptos o web scraping, en el sentido de que todos estos enfoques buscan recopilar información útil de un conjunto más amplio de datos disponibles.
El enfoque general para la extracción de información requiere el uso de programación que sea capaz de escanear fuentes de información que se consideren legibles por máquina. Esto puede incluir documentos impresos que se han escaneado en algún tipo de archivos electrónicos, documentos preparados como hojas de cálculo o documentos de procesamiento de texto, o incluso los datos que están contenidos en campos legibles en una base de datos. Por lo general, se establecen parámetros que hacen posible que un programa de software tenga acceso a estas fuentes de datos y las escanee rápidamente utilizando criterios específicos para priorizar y extraer ciertos tipos de información del grupo disponible. Este proceso es típicamente diferente de un proceso de búsqueda simple, en que el método requiere no hacer coincidir palabras o frases específicas per se, sino que utiliza un proceso llamado procesamiento del lenguaje natural, que ayuda no solo a evaluar las palabras reales sino también el contexto y el significado que implica ese contexto.
Las complejidades involucradas con la extracción de información hacen que el uso de este enfoque sea algo difícil de administrar a escala global, aunque existen herramientas de IE que funcionan muy bien solo con una cantidad limitada de datos, como las fuentes de datos asociadas con los archivos electrónicos alojados en el servidor de una corporación, o incluso un grupo de fuentes que involucran un número limitado de fuentes de noticias. Con este enfoque es posible identificar algún tipo de evento, posiblemente incluso limitar los retornos a la inclusión de un cierto número de participantes en el evento, y tener los datos ordenados por fecha.
Como ocurre con muchas formas de tecnología, las herramientas que se utilizan para participar en la extracción de información se perfeccionan continuamente. Desde principios del siglo XXI, la capacidad de establecer parámetros y hacer uso de conjuntos de datos electrónicos cada vez mayores como parte de la búsqueda de información relevante ha aumentado significativamente. Esto incluye la capacidad de tratar con grandes volúmenes de datos no estructurados y usar esos parámetros para poner orden o estructura en esos datos, haciéndolos aún más útiles para búsquedas futuras.