I concetti di data mining più importanti vengono utilizzati per l’analisi delle informazioni raccolte, in particolare nello sforzo di osservare un comportamento. Le interazioni sconosciute tra i dati vengono ricercate in vari modi per accertare le relazioni critiche tra i soggetti e le informazioni aggregate. Una sfida nel data mining è che le informazioni effettivamente raccolte potrebbero non ricordare l’intero dominio. Nel tentativo di affrontare questo fatto, le correlazioni tra i dati possono essere controllate metodicamente dai vari concetti di data mining.
Gli standard per i concetti di data mining sono applicati dallo Special Interest Group on Knowledge Discovery and Data Mining (SIGKDD) dell’Association for Computing Machinery. Questa organizzazione pubblica l'”International Journal of Information Technology and Decision Making” e la rivista SIGKDD Explorations. L’applicazione dell’etica e dei principi di base del data mining consente al settore di funzionare in modo efficiente e con problemi legali limitati.
La pre-elaborazione delle informazioni è uno degli aspetti più importanti del data mining. I dati grezzi devono essere estratti e interpretati. Per eseguire questa azione, è necessario determinare un processo, assemblare i dati di destinazione e trovare modelli. Il processo è noto come Knowledge Discovery in Databases ed è stato sviluppato da Gregory Piatetsky-Shapiro nel 1989.
Quattro diverse classi di concetti di data mining consentono lo svolgimento del processo. Il clustering utilizza l’algoritmo creato dal processo di data mining per assemblare gli elementi in gruppi simili. A differenza del clustering, la classificazione delle informazioni avviene quando i dati vengono assemblati in gruppi predefiniti e analizzati. L’associazione tenta di trovare relazioni tra le variabili, determinando quali gruppi di dati sono comunemente associati. L’ultimo tipo di data mining è la regressione, basata sul metodo di identificazione di una funzione all’interno della raccolta dati.
La convalida delle informazioni è il passaggio finale per scoprire cosa rappresenta l’applicazione di data mining. Quando non tutti gli algoritmi presentano un set di dati valido, i modelli che si verificano possono provocare una situazione chiamata overfitting. Per superare questo problema, i dati vengono confrontati con un set di test. Questo è un concetto in cui le misurazioni sono allineate con una serie di algoritmi che fornirebbero un insieme plausibile di set di dati. Se le informazioni acquisite non si allineano al set di test, i modelli assunti nei dati devono essere imprecisi.
Alcuni dei concetti di data mining più importanti si verificano in una varietà di settori. Gioco, affari, marketing, scienza, ingegneria e sorveglianza utilizzano tutti tecniche di data mining. Conducendo queste tecniche, ogni campo può determinare le migliori pratiche o modi migliori per trovare risultati.