Che cos’è l’estrazione di informazioni?

A volte noto come recupero delle informazioni, l’estrazione delle informazioni (IE) è un processo utilizzato con i sistemi informatici per consentire l’estrazione di dati rilevanti da corpi di dati più grandi, utilizzando una serie di criteri predefiniti. L’idea alla base dell’estrazione delle informazioni è quella di consentire di identificare e assimilare facilmente i dati rilevanti per una particolare attività, senza la necessità di esaminare manualmente grandi quantità di informazioni per trovare i dati esatti richiesti. Il processo è simile alle idee del concept mining o del web scraping, in quanto tutti questi approcci cercano di raccogliere informazioni utili da un pool più ampio di dati disponibili.

L’approccio generale all’estrazione delle informazioni richiede l’utilizzo di una programmazione in grado di scansionare fonti di informazioni considerate leggibili dalla macchina. Ciò può includere documenti cartacei che sono stati scansionati in una sorta di file elettronici, documenti preparati come fogli di calcolo o documenti di elaborazione testi, o anche i dati contenuti in campi leggibili in un database. In genere, vengono impostati parametri che consentono a un programma software di accedere a queste fonti di dati e di esaminarle rapidamente utilizzando criteri specifici per assegnare priorità ed estrarre determinati tipi di informazioni dal pool disponibile. Questo processo è tipicamente diverso da un semplice processo di ricerca, in quanto il metodo richiede di non corrispondere a parole o frasi specifiche di per sé, ma utilizza invece un processo chiamato elaborazione del linguaggio naturale, che aiuta non solo a valutare le parole effettive ma anche il contesto e il significato implicito in quel contesto.

Le complessità legate all’estrazione delle informazioni rendono l’uso di questo approccio alquanto difficile da gestire su scala globale, sebbene ci siano strumenti di IE che funzionano molto bene solo con una quantità limitata di dati, come le fonti di dati associate ai file elettronici ospitati su il server di una società, o anche un pool di fonti che coinvolgono un numero limitato di feed di notizie. Con questo approccio è possibile individuare qualche tipologia di evento, eventualmente anche limitare i ritorni all’inclusione di un certo numero di partecipanti all’evento, e disporre i dati per data.

Come con molte forme di tecnologia, gli strumenti utilizzati per impegnarsi nell’estrazione delle informazioni vengono continuamente perfezionati. Dall’inizio del 21° secolo, la capacità di impostare parametri e utilizzare corpi sempre più numerosi di dati elettronici come parte della ricerca di informazioni rilevanti è aumentata in modo significativo. Ciò include la capacità di gestire grandi volumi di dati non strutturati e utilizzare quei parametri per portare un po’ di ordine o struttura a quei dati, rendendoli ancora più utili per le ricerche future.