Qual è la differenza tra data mining e data warehousing?

I termini data mining e data warehousing sono spesso confusi sia dal personale aziendale che da quello tecnico. L’intero campo della gestione dei dati ha registrato una crescita fenomenale con l’implementazione di programmi software di raccolta dati e la diminuzione del costo della memoria del computer. Lo scopo principale di entrambe queste funzioni è fornire gli strumenti e le metodologie per esplorare i modelli e il significato di grandi quantità di dati.

Le principali differenze tra il data mining e il data warehousing sono la progettazione del sistema, la metodologia utilizzata e lo scopo. Il data mining consiste nell’uso della logica di riconoscimento del modello per identificare le tendenze all’interno di un set di dati campione ed estrapolare queste informazioni rispetto al pool di dati più ampio. Il data warehousing è il processo di estrazione e memorizzazione dei dati per consentire un reporting più semplice.

Il data mining è un termine generico utilizzato per descrivere una serie di processi aziendali che derivano modelli dai dati. In genere, viene utilizzato un pacchetto software di analisi statistica per identificare modelli specifici, in base al set di dati e alle query generate dall’utente finale. Un uso tipico del data mining è creare programmi di marketing mirati, identificare frodi finanziarie e segnalare modelli di comportamento insoliti come parte di una revisione della sicurezza.

Un eccellente esempio di data mining è il processo utilizzato dalle compagnie telefoniche per commercializzare prodotti ai clienti esistenti. La compagnia telefonica utilizza un software di data mining per accedere al proprio database di informazioni sui clienti. Viene scritta una query per identificare i clienti che hanno sottoscritto il pacchetto telefonico di base e il servizio Internet in un intervallo di tempo specifico. Una volta selezionato questo set di dati, viene scritta un’altra query per determinare quanti di questi clienti hanno usufruito di funzioni telefoniche aggiuntive gratuite durante una promozione di prova. I risultati di questo esercizio di data mining rivelano modelli di comportamento che possono guidare o aiutare a perfezionare un piano di marketing per aumentare l’uso di servizi telefonici aggiuntivi.

È importante notare che lo scopo principale del data mining è individuare i modelli nei dati. Le specifiche utilizzate per definire il set di campioni hanno un enorme impatto sulla pertinenza dell’output e sull’accuratezza dell’analisi. Tornando all’esempio precedente, se il set di dati è limitato ai clienti all’interno di un’area geografica specifica, i risultati e gli schemi differiranno da un set di dati più ampio. Sebbene sia il data mining che il data warehousing lavorino con grandi volumi di informazioni, i processi utilizzati sono piuttosto diversi.
Un data warehouse è un prodotto software utilizzato per archiviare grandi volumi di dati ed eseguire query e report appositamente progettati. La business intelligence è un campo di studio in crescita che si concentra sul data warehousing e sulle relative funzionalità. Questi strumenti sono progettati per estrarre i dati e archiviarli in un metodo progettato per fornire prestazioni di sistema avanzate. Gran parte della terminologia nel data mining e nel data warehousing è la stessa, portando a una maggiore confusione.