Il clustering di correlazione viene eseguito su database e altre origini dati di grandi dimensioni per raggruppare set di dati simili, avvisando anche l’utente di set di dati dissimili. Questo può essere fatto perfettamente in alcuni grafici, mentre altri sperimenteranno errori perché sarà difficile distinguere dati simili da dati dissimili. Nel caso di quest’ultimo, il clustering di correlazione aiuterà a ridurre automaticamente l’errore. Questo è spesso usato per il data mining o per cercare somiglianze in dati ingombranti. I dati dissimili vengono comunemente eliminati o inseriti in un cluster separato.
Quando viene utilizzata una funzione di clustering di correlazione, cerca i dati in base alle istruzioni dell’utente. L’utente dirà al programma cosa cercare e, quando lo trova, dove collocare i dati. Questo viene normalmente applicato a origini dati molto grandi quando sarebbe impossibile, o richiedere troppe ore, cercare manualmente i dati. Ci può essere un raggruppamento perfetto o un raggruppamento imperfetto.
Il clustering perfetto è lo scenario ideale. Ciò significa che ci sono solo due tipi di dati e uno è ciò che l’utente sta cercando mentre l’altro non è necessario. Tutti i dati positivi o necessari vengono inseriti in un cluster, mentre gli altri dati vengono eliminati o spostati. In questo scenario, non c’è confusione e tutto funziona perfettamente.
I grafici più complessi non consentono un clustering perfetto e sono, invece, imperfetti. Ad esempio, un grafico ha tre variabili: X, Y e Z. X,Y è simile, X,Z è simile, ma Y,Z è dissimile. I tre cluster variabili sono così simili, tuttavia, che è impossibile avere un clustering di correlazione perfetto. Il programma funzionerà per massimizzare il numero di correlazioni positive, ma ciò richiederà comunque alcune ricerche manuali da parte dell’utente.
Nel data mining, soprattutto quando si tratta di set di dati di grandi dimensioni, il clustering di correlazione viene utilizzato per raggruppare dati simili con dati simili. Ad esempio, se un’azienda estrae dati per un sito Web o database di grandi dimensioni e desidera conoscere solo un aspetto specifico, ci vorrebbe un’eternità per cercare tutti i dati per quell’aspetto. Utilizzando una formula di clustering, i dati verranno messi da parte per una corretta analisi.
Le informazioni dissimili vengono trattate basandosi esclusivamente sulle istruzioni dell’utente. L’utente può scegliere di inviare dati dissimili a diversi cluster, perché le informazioni possono essere utili per altri progetti. Se i dati non sono necessari e stanno solo sprecando memoria, le informazioni dissimili vengono eliminate. Nel clustering imperfetto, è possibile che alcune informazioni dissimili non vengano espulse, perché sono così simili ai dati che l’utente sta cercando.