Il data mining statistico, noto anche come conoscenza o scoperta dei dati, è un metodo computerizzato di raccolta e analisi delle informazioni. Lo strumento di data mining prende i dati e classifica le informazioni per scoprire modelli o correlazioni che possono essere utilizzati in applicazioni importanti, come la medicina, la programmazione di computer, la promozione aziendale e la progettazione robotica. Le tecniche di data mining statistico utilizzano matematica complessa e processi statistici complessi per creare un’analisi.
Il data mining prevede cinque passaggi principali. La prima applicazione di data mining raccoglie dati statistici e inserisce le informazioni in un programma di tipo warehouse. Successivamente, i dati nel magazzino vengono organizzati e crea un sistema di gestione. Il passaggio successivo crea un modo per accedere ai dati gestiti. Quindi, il quarto passaggio sviluppa software per analizzare i dati, noto anche come regressione di data mining, mentre il passaggio finale facilita l’utilizzo o l’interpretazione dei dati statistici in modo pratico.
In generale, le tecniche di data mining integrano sistemi di dati analitici e transazionali. Il software analitico ordina entrambi i tipi di sistemi di dati utilizzando domande aperte dell’utente. Le domande a risposta aperta consentono innumerevoli risposte in modo che i programmatori non influenzino i risultati dell’ordinamento. I programmatori creano elenchi di domande per aiutare a categorizzare le informazioni utilizzando un focus generale.
L’ordinamento si basa quindi sullo sviluppo di classi e cluster di dati, associazioni trovate nei dati e tenta di definire modelli e tendenze in base alle associazioni. Ad esempio, Google raccoglie informazioni sulle abitudini di acquisto degli utenti per facilitare l’inserimento di pubblicità online. Le domande aperte utilizzate per ordinare questi dati dell’acquirente si concentrano sulle preferenze di acquisto o sulle abitudini di visualizzazione degli utenti di Internet.
Gli informatici e i programmatori si concentrano sull’analisi dei dati statistici raccolti. La creazione di alberi decisionali, reti neurali artificiali, metodo del vicino più prossimo, induzione di regole, visualizzazione dei dati e algoritmi genetici utilizzano tutti i dati estratti statisticamente. Questi sistemi di classificazione aiutano a interpretare le associazioni scoperte dai programmi di dati analitici. Il data mining statistico coinvolge piccoli progetti che possono essere eseguiti su piccola scala su un computer di casa, ma la maggior parte dei set di associazioni di data mining sono così grandi e la regressione del data mining così complicata da richiedere un supercomputer o una rete di computer ad alta velocità.
Il data mining statistico raccoglie tre tipi generali di dati, inclusi dati operativi, dati non operativi e metadati. In un negozio di abbigliamento, i dati operativi sono dati di base utilizzati per gestire l’attività, come la contabilità, le vendite e il controllo dell’inventario. I dati non operativi, che sono indirettamente correlati all’attività, includono stime delle vendite future e informazioni generali sul mercato nazionale dell’abbigliamento. I metadati riguardano i dati stessi. Un programma che utilizza i metadati potrebbe ordinare i clienti del negozio in classificazioni in base al sesso o alla posizione geografica degli acquirenti di abbigliamento o al colore preferito dei clienti, se tali dati sono stati raccolti.
Un’applicazione di data mining può essere estremamente sofisticata e lo strumento di data mining statistico può avere applicazioni pratiche diffuse. Lo studio delle epidemie ne è un esempio. Un progetto di data mining del 2000 ha analizzato l’epidemia di criptosporidio in Ontario, Canada, per determinare le cause dell’aumento dei casi di malattia. I risultati dell’estrazione di dati hanno aiutato a collegare l’epidemia di batteri alle condizioni dell’acqua locale e alla mancanza di un adeguato trattamento delle acque municipali. Un campo chiamato “biosorveglianza” utilizza l’estrazione di dati epidemiologici per identificare i focolai di una singola malattia.
I programmatori ei progettisti di computer impiegano anche lo studio della probabilità e l’analisi statistica dei dati per sviluppare macchine e programmi per computer. Il motore di ricerca Internet di Google è stato progettato utilizzando il data mining statistico. Google continua a raccogliere e utilizzare il data mining per creare aggiornamenti e applicazioni del programma.