¿Qué es una clasificación de minería de datos?

La clasificación de minería de datos es un paso en el proceso de minería de datos. Se utiliza para agrupar elementos en función de determinadas características clave. Se utilizan varias técnicas para la clasificación de minería de datos, incluida la clasificación de vecinos más cercanos, el aprendizaje del árbol de decisiones y las máquinas de vectores de soporte.

La minería de datos es un método que utilizan los investigadores para extraer patrones de los datos. Generalmente, se elige una muestra representativa del conjunto de datos y luego se manipula y analiza para encontrar patrones. Además de la clasificación de minería de datos, los investigadores también pueden usar agrupamiento, regresión y aprendizaje de reglas para analizar los datos.

Hay varios algoritmos que se pueden utilizar en la clasificación de minería de datos. La clasificación del vecino más cercano es uno de los algoritmos de clasificación de minería de datos más simples. Se basa en un conjunto de entrenamiento. Un conjunto de entrenamiento es un conjunto de datos que se usa para entrenar a la computadora para que preste atención a ciertas variables. En la clasificación de vecino más cercano, la computadora simplemente clasifica todos los datos como parte del grupo que contiene los datos más cercanos en valor a la entrada.

El aprendizaje del árbol de decisiones utiliza un modelo de ramificación para clasificar los datos. Básicamente, la computadora hace una serie de preguntas sobre los datos. Si la respuesta a la primera pregunta es verdadera, formula la pregunta 2a. Si la respuesta es falsa, hace la pregunta 2b. Cuando se extrae, este método forma un árbol de caminos ramificados.

La clasificación ingenua de Bayes se basa en la probabilidad. Hace una serie de preguntas sobre cada dato y luego usa las respuestas para determinar la probabilidad de que los datos pertenezcan a una clasificación particular. Esto es diferente del aprendizaje del árbol de decisiones porque la respuesta a la primera pregunta no influye en qué pregunta se hará a continuación.

Los métodos más complicados de clasificación de minería de datos incluyen redes neuronales y máquinas de vectores de soporte. Estos métodos son modelos basados en computadora que serían difíciles de hacer a mano. Las redes neuronales se utilizan a menudo en la programación de inteligencia artificial porque imitan el cerebro humano. Filtra la información a través de una serie de nodos que encuentran patrones y luego clasifican la información.
Las máquinas de vectores de soporte usan muestras de entrenamiento para construir un modelo que clasificará la información, generalmente visualizada como un diagrama de dispersión con un amplio espacio entre categorías. Cuando se introduce nueva información en la máquina, se traza en el gráfico. Luego, los datos se clasifican en función de la categoría a la que más se acerca la información en el gráfico. Este método solo funciona cuando hay dos opciones para elegir.