Che cos’è il Biclustering?

Il biclustering è una tecnica di data mining che ordina le informazioni in una matrice assegnando contemporaneamente le righe e le colonne della matrice. Al centro di questa tecnica c’è l’efficienza, che consente al computer di vagliare e ordinare una grande quantità di dati in un tempo più breve rispetto ai metodi di clustering singolo. Il biclustering è semplicemente un titolo generale di una particolare classe di tecniche di data mining; ci sono molti algoritmi diversi che possono rientrare in questa categoria, inclusi il clustering a blocchi, il modello Plaid, il clustering bidirezionale accoppiato e il clustering bidirezionale interrelato.

Per comprendere l’importanza del biclustering, è necessario prima comprendere il concetto generale di data mining. Il data mining sta prendendo una grande pila di dati, come le informazioni scaricate dal database principale di un’azienda, e li ordina per identificare tendenze e altri modelli utili. Questo tipo di analisi può essere utilizzato per determinare modelli che altrimenti non sarebbero evidenti attraverso uno studio casuale, come le tendenze di acquisto dei consumatori e le fluttuazioni del mercato azionario. Il data mining può essere condotto manualmente da un analista umano o elettronicamente utilizzando un tipo di algoritmo di data mining; è qui che entra in gioco il biclustering.

Durante il processo di data mining, il computer che conduce l’analisi tenterà di ordinare insieme le informazioni correlate. Questo processo è noto come “raggruppamento”. Il clustering consente al computer di flettere la sua intelligenza artificiale riconoscendo quando due o più informazioni sono correlate tra loro, mettendole insieme in una matrice. Normalmente vengono riempite le righe o le colonne della matrice, ma solo una alla volta.

Il biclustering elimina questa limitazione consentendo al computer di riempire contemporaneamente sia le righe che le colonne. Ciò migliora l’efficienza del processo di clustering, ma può portare a matrici disposte in modo diverso a seconda del particolare algoritmo utilizzato. Ad esempio, un computer che organizza cose con valori di corrispondenza costanti in righe rispetto a un computer che organizza cose con valori di corrispondenza costanti posizionati in colonne genererà matrici dall’aspetto diverso utilizzando esattamente gli stessi valori. Non esiste un modo “giusto” per raggruppare i dati; tutto dipende dalla situazione particolare e dalle preferenze dell’individuo che conduce il data mining.