Cos’è il data mining?

Il data mining utilizza una quantità relativamente grande di potenza di calcolo che opera su un ampio set di dati per determinare le regolarità e le connessioni tra i punti dati. Algoritmi che impiegano tecniche di statistica, apprendimento automatico e riconoscimento di modelli vengono utilizzati per cercare automaticamente database di grandi dimensioni. Il data mining è anche conosciuto come Knowledge-Discovery in Databases (KDD).

Come il termine intelligenza artificiale, il data mining è un termine generico che può essere applicato a una serie di attività diverse. Nel mondo aziendale, il data mining viene utilizzato più frequentemente per determinare la direzione delle tendenze e prevedere il futuro. Viene impiegato per costruire modelli e sistemi di supporto alle decisioni che forniscono alle persone informazioni che possono utilizzare. Il data mining assume un ruolo di primo piano nella battaglia contro il terrorismo. Si suppone che sia stato usato per determinare il leader degli attacchi dell’9 settembre.

I minatori di dati sono statistici che utilizzano tecniche con nomi come modelli near-neighbor, clustering k-means, metodo holdout, k-fold cross validation, metodo leave-one-out e così via. Le tecniche di regressione vengono utilizzate per sottrarre schemi irrilevanti, lasciando solo informazioni utili. Il termine bayesiano è visto frequentemente nel campo, riferendosi a una classe di tecniche di inferenza che prevedono la probabilità di eventi futuri combinando probabilità precedenti e probabilità basate su eventi condizionali. Il filtraggio dello spam è probabilmente una forma di data mining, che porta automaticamente in superficie messaggi rilevanti da un mare caotico di tentativi di phishing e proposte di Viagra.

Gli alberi decisionali vengono utilizzati per filtrare montagne di dati. In un albero decisionale, tutti i dati passano attraverso un nodo di ingresso, dove si trovano di fronte a un filtro che separa i dati in flussi a seconda delle sue caratteristiche. Ad esempio, è probabile che i dati sul comportamento dei consumatori vengano filtrati in base a fattori demografici. Il data mining non riguarda principalmente grafici fantasiosi e tecniche di visualizzazione, ma li impiega per mostrare ciò che ha trovato. È noto che possiamo assorbire più informazioni statistiche visivamente che verbalmente e questo formato di presentazione può essere molto persuasivo e potente se utilizzato nel giusto contesto.

Man mano che la nostra civiltà diventa sempre più satura di dati e i sensori vengono distribuiti in massa nei nostri ambienti locali, scopriremo inavvertitamente cose che potrebbero mancare al primo passaggio. Il data mining ci consentirà di correggere questi errori e scoprire nuove intuizioni basate sui dati passati, dandoci più soldi per il nostro storage di dati.