Che cos’è l’estrazione di strutture?

Il mining di struttura è un tipo di data mining in cui viene scansionata un’origine dati semistrutturata e gli elementi della sua struttura vengono scoperti ed evidenziati. Un’origine dati semistrutturata è quella che non utilizza la tradizionale struttura di database delle tabelle, ma ha un elemento semantico che separa le informazioni tramite tag e marcatori. Il mining di strutture può essere utilizzato per estrarre database, siti Web e molte altre forme di informazioni informatiche per scoprire elementi della struttura. Aiuta gli utenti a capire come i pezzi interagiscono tra loro o come trovare informazioni sotto determinati tag. Questo mining può essere utilizzato anche per prevedere che cos’è un oggetto, in base a regole scritte dall’utente.

Esistono molti tipi diversi di data mining e la maggior parte riguarda il mining di una fonte strutturata in modo tradizionale. Ciò include qualsiasi origine che utilizza le tabelle ei nodi tipici della maggior parte dei database. Nel mining di strutture vengono utilizzati solo dati semi-strutturati. In questo caso, i dati provengono da siti Web o semplici database che hanno una struttura ma non conforme alle regole dei database tradizionali. I dati necessitano di tag o indicatori che distinguano ogni elemento per essere correttamente estratti.

Leggendo il set di dati semistrutturato, il mining di struttura è in grado di scoprire come interagisce la struttura. Ad esempio, ogni sito Web ha un modello di navigazione ed è questo modello che determina il modo in cui le pagine interagiscono. Estraendo la struttura, l’utente può scoprire come funziona questa navigazione, il che può aiutare a creare uno schema di navigazione simile.

Il mining di strutture può essere utilizzato anche per trovare oggetti scrivendo regole nel programma di mining. Ad esempio, se è presente un set di dati di un libro, l’utente può scrivere una regola secondo cui tutti i libri senza indice devono essere restituiti come fiction e quelli con un indice devono essere restituiti come non fiction. La maggior parte dei libri di narrativa non ha un indice, quindi questa regola prevede con elevata precisione quali sono i dati. Questo aiuta gli utenti quando guardano un set semi-strutturato che ha un metodo organizzativo ma non uno che si adatta a ciò che l’utente sta cercando.

Dopo aver individuato la struttura dell’unità semistrutturata, l’utente in genere la confronterà con un’altra unità semistrutturata. Se l’utente ha un sito Web aziendale, può estrarre un altro sito Web aziendale per la navigazione e i collegamenti e vedere in che modo il suo sito Web è simile. Confrontando le informazioni estratte, l’utente può trovare modi per aumentare l’efficienza della struttura.