La extracción de conocimiento es el proceso de hacer uso de diversas fuentes de información para crear un banco de conocimiento cohesionado. Como parte de este enfoque, la extracción a menudo se basará en una variedad de fuentes estructuradas y no estructuradas. Cuando tiene éxito, la extracción de conocimiento da como resultado datos sólidos que un programa determinado puede leer e interpretar fácilmente, lo que permite al usuario final utilizar ese conocimiento formal para cualquier propósito que desee.
Se pueden utilizar varias fuentes diferentes en el proceso de extracción de conocimientos. Dentro del alcance de las fuentes estructuradas, los datos se pueden extraer de varios tipos de bases de datos relacionales o algún tipo de lenguaje de marcado extensible o fuente XML. Como parte del proceso de extracción, se pueden utilizar fuentes no estructuradas, como imágenes, diferentes formas de documentos de procesamiento de texto, hojas de cálculo e incluso texto capturado en programas de estilo de bloc de notas. Siempre que las fuentes sean legibles para el programa que se utiliza para gestionar el proceso de extracción de conocimiento, se pueden utilizar como fuentes que amplíen el potencial del proyecto que se avanza mediante la extracción y permitan que el conocimiento final producido sea utilizable. .
Hay varias aplicaciones comunes que ocurren con la extracción de conocimiento. Un ejemplo frecuente es la capacidad de capturar datos de una fuente no estructurada e incorporarlos a algún tipo de fuente de conocimiento estructurada. Extraer datos que se encuentran en bases de datos relacionales y usarlos para crear nuevos documentos, o hacer uso de documentos electrónicos para importar datos a bases de datos relacionales, es otro ejemplo de cómo este tipo de extracción puede acelerar el intercambio de conocimiento formal sin la necesidad de ingresar datos manualmente. que ya está disponible en alguna otra fuente. Esta reutilización del conocimiento existente en algún formato nuevo es a menudo muy útil en una serie de escenarios, lo que hace posible utilizar ese conocimiento de formas que tal vez no hubiera sido posible con la fuente existente. De esta manera, el usuario puede crear fuentes que son ideales para una serie de aplicaciones diferentes en lugar de solo aquellas relevantes para el hogar original del conocimiento formal.
Con el uso de la extracción de datos, es posible hacer uso de un gran almacén de datos, importando y exportando datos fácilmente como una forma de crear una nueva fuente que sea utilizable para un propósito específico. Estas fuentes recién creadas, a su vez, también encuentran un lugar en el almacén de datos y eventualmente se pueden usar en la creación de nuevas extracciones que se utilizan para satisfacer las necesidades de uso más nuevas. Teniendo esto en cuenta, la extracción de conocimiento puede verse como una herramienta muy útil que ayuda a aprovechar al máximo todos los recursos disponibles actualmente, simplificando muchas de las tareas involucradas con el intercambio de ese conocimiento formal.