Il processo di data mining è uno strumento per scoprire modelli statisticamente significativi in una grande quantità di dati. In genere prevede cinque passaggi principali, che includono la preparazione, l’esplorazione dei dati, la creazione del modello, la distribuzione e la revisione. Ogni fase del processo implica un diverso insieme di tecniche, ma la maggior parte utilizza una qualche forma di analisi statistica.
Prima che il processo di data mining possa iniziare, i ricercatori in genere fissano obiettivi di ricerca. Questa fase di preparazione di solito determina quali tipi di dati devono essere studiati, quali tecniche di data mining dovrebbero essere utilizzate e quale forma assumeranno i risultati. Questa fase iniziale del processo può essere cruciale per raccogliere informazioni utili.
Il passo successivo nel processo di data mining è l’esplorazione. Questo passaggio in genere comporta la raccolta dei dati richiesti da un magazzino di informazioni o da un’entità di raccolta. Quindi, gli esperti di mining in genere preparano i set di dati grezzi per l’analisi. Questo passaggio di solito consiste nel raccogliere, pulire, organizzare e controllare tutti i dati per eventuali errori.
Questi dati preparati di solito entrano poi nella terza fase del processo di data mining, la costruzione del modello. Per fare ciò, i ricercatori in genere prendono piccoli campioni di dati e applicano loro una varietà di tecniche di data mining. La fase di modellazione viene spesso utilizzata per determinare il miglior metodo di analisi statistica necessario per ottenere i risultati desiderati.
Ci sono quattro tecniche principali che possono essere applicate nel processo di data mining. Il primo è la classificazione, che organizza i dati in gruppi o categorie predefiniti. Nella seconda tecnica, chiamata clustering, i ricercatori consentono al computer di organizzare i dati in gruppi, come preferisce. Una terza tecnica di data mining cerca associazioni tra variabili. Il quarto in genere cerca modelli sequenziali nei dati che possono essere utilizzati per prevedere le tendenze future.
Il passaggio finale del processo di data mining è la distribuzione. Per fare ciò, le tecniche scelte nel modello vengono applicate al set di dati più ampio e i risultati vengono analizzati. Il report che deriva da questo passaggio di solito mostra i modelli trovati nell’intero processo, incluse eventuali classificazioni, cluster, associazioni o modelli sequenziali esistenti all’interno del set di dati.
La revisione è spesso un passaggio finale importante. Questa fase del processo di solito comporta la ripetizione di modelli di mining con un nuovo set di dati per assicurarsi che il set principale fosse rappresentativo dell’intera popolazione di dati. I risultati non possono prevedere le tendenze nella popolazione più ampia se il campione di dati non lo rappresenta accuratamente.