¿Qué es la agrupación en clústeres de correlación?

La agrupación en clústeres de correlación se realiza en bases de datos y otras grandes fuentes de datos para agrupar conjuntos de datos similares, al tiempo que alerta al usuario sobre conjuntos de datos diferentes. Esto se puede hacer perfectamente en algunos gráficos, mientras que otros experimentarán errores porque será difícil diferenciar datos similares de diferentes. En el caso de este último, el agrupamiento de correlaciones ayudará a reducir el error automáticamente. Esto se usa a menudo para la minería de datos o para buscar similitudes en datos difíciles de manejar. Los datos diferentes se eliminan comúnmente o se colocan en un grupo separado.

Cuando se utiliza una función de agrupación en clústeres de correlación, busca datos según las instrucciones del usuario. El usuario le dirá al programa qué buscar y, cuando lo encuentre, dónde colocar los datos. Normalmente, esto se aplica a fuentes de datos muy grandes cuando sería imposible, o llevaría demasiadas horas, buscar los datos manualmente. Puede haber una agrupación perfecta o una agrupación imperfecta.

La agrupación perfecta es el escenario ideal. Esto significa que solo hay dos tipos de datos, y uno es lo que el usuario busca mientras que el otro es innecesario. Todos los datos positivos o necesarios se colocan en un grupo, mientras que los demás datos se eliminan o mueven. En este escenario, no hay confusión y todo funciona a la perfección.

La mayoría de los gráficos complejos no permiten una agrupación perfecta y, en cambio, son imperfectos. Por ejemplo, una gráfica tiene tres variables: X, Y y Z. X, Y es similar, X, Z es similar, pero Y, Z es diferente. Sin embargo, los tres grupos de variables son tan similares que es imposible tener un agrupamiento de correlación perfecto. El programa trabajará para maximizar el número de correlaciones positivas, pero esto aún requerirá alguna búsqueda manual por parte del usuario.

En la minería de datos, especialmente cuando se trata de grandes conjuntos de datos, la agrupación en clústeres de correlación se utiliza para agrupar datos similares con datos similares. Por ejemplo, si una empresa extrae datos para un gran sitio web o una base de datos y solo quiere saber sobre un aspecto específico, tomaría una eternidad buscar en todos los datos para ese aspecto. Al utilizar una fórmula de agrupamiento, los datos se reservarán para un análisis adecuado.

La información diferente se trata basándose únicamente en las instrucciones del usuario. El usuario puede optar por enviar datos diferentes a diferentes clústeres, porque la información puede ser útil para otros proyectos. Si los datos no son necesarios y solo están desperdiciando memoria, la información diferente se descarta. En clustering imperfecto, es posible que no se descarte alguna información diferente, porque es muy similar a los datos que busca el usuario.