L’estrazione della conoscenza è il processo di utilizzo di varie fonti di informazione per creare una banca della conoscenza coesa. Come parte di questo approccio, l’estrazione attingerà spesso a una serie di fonti sia strutturate che non strutturate. Quando ha successo, l’estrazione della conoscenza si traduce in dati solidi che possono essere facilmente letti e interpretati da un determinato programma, consentendo all’utente finale di utilizzare quella conoscenza formale per qualsiasi scopo desideri.
Diverse fonti possono essere utilizzate nel processo di estrazione della conoscenza. Nell’ambito delle fonti strutturate, i dati possono essere estratti da vari tipi di database relazionali o da qualche tipo di linguaggio di markup estensibile o sorgente XML. Fonti non strutturate, come immagini, diverse forme di documenti di elaborazione testi, fogli di calcolo e persino testo catturato su programmi in stile blocco note possono essere utilizzate come parte del processo di estrazione. Finché le fonti sono leggibili dal programma utilizzato per gestire il processo di estrazione della conoscenza, possono essere utilizzate come fonti che espandono le potenzialità del progetto che si sta portando avanti mediante l’estrazione e consentono la fruibilità della conoscenza finale prodotta .
Esistono diverse applicazioni comuni che si verificano con l’estrazione della conoscenza. Un esempio frequente è la capacità di acquisire dati da una fonte non strutturata e incorporarli in un qualche tipo di fonte di conoscenza strutturata. Estrarre dati trovati in database relazionali e utilizzarli per creare nuovi documenti, o utilizzare documenti elettronici per importare dati in database relazionali, è un altro esempio di come questo tipo di estrazione possa velocizzare la condivisione delle conoscenze formali senza la necessità di inserire manualmente i dati che è già disponibile da qualche altra fonte. Questo riutilizzo della conoscenza esistente in un nuovo formato è spesso molto utile in una serie di scenari, rendendo possibile l’utilizzo di tale conoscenza in modi che potrebbero non essere stati possibili con la fonte esistente. In questo modo, l’utente può creare fonti ideali per una serie di applicazioni diverse piuttosto che solo quelle rilevanti per la sede originale della conoscenza formale.
Con l’uso dell’estrazione dei dati è possibile usufruire di un vasto data warehouse, importando ed esportando facilmente i dati per creare una nuova fonte utilizzabile per uno scopo specifico. Queste nuove fonti a loro volta trovano posto anche nel data warehouse e possono eventualmente essere utilizzate nella creazione di nuove estrazioni che vengono utilizzate per soddisfare le nuove esigenze di utilizzo. Con questo in mente, l’estrazione della conoscenza può essere vista come uno strumento molto utile che aiuta a sfruttare al meglio tutte le risorse attualmente a disposizione, semplificando molti dei compiti coinvolti nella condivisione di quella conoscenza formale.