¿Qué es la minería de datos?

La minería de datos utiliza una cantidad relativamente grande de potencia informática que opera en un gran conjunto de datos para determinar regularidades y conexiones entre puntos de datos. Los algoritmos que emplean técnicas de estadística, aprendizaje automático y reconocimiento de patrones se utilizan para buscar grandes bases de datos automáticamente. La minería de datos también se conoce como descubrimiento de conocimiento en bases de datos (KDD).

Al igual que el término inteligencia artificial, la minería de datos es un término general que se puede aplicar a diversas actividades. En el mundo empresarial, la minería de datos se utiliza con mayor frecuencia para determinar la dirección de las tendencias y predecir el futuro. Se emplea para construir modelos y sistemas de apoyo a la toma de decisiones que brindan a las personas información que pueden utilizar. La minería de datos tiene un papel de primera línea en la batalla contra el terrorismo. Supuestamente se usó para determinar el líder de los ataques del 9 de septiembre.

Los mineros de datos son estadísticos que utilizan técnicas con nombres como modelos de vecino cercano, agrupamiento de k-medias, método de retención, validación cruzada de k-pliegues, método de dejar uno fuera, etc. Las técnicas de regresión se utilizan para restar patrones irrelevantes, dejando solo información útil. El término bayesiano se ve con frecuencia en el campo, refiriéndose a una clase de técnicas de inferencia que predicen la probabilidad de eventos futuros mediante la combinación de probabilidades previas y probabilidades basadas en eventos condicionales. El filtrado de spam es posiblemente una forma de extracción de datos, que automáticamente trae a la superficie mensajes relevantes de un mar caótico de intentos de phishing y lanzamientos de Viagra.

Los árboles de decisión se utilizan para filtrar montañas de datos. En un árbol de decisión, todos los datos pasan por un nodo de entrada, donde se enfrentan a un filtro que separa los datos en flujos según sus características. Por ejemplo, es probable que los datos sobre el comportamiento del consumidor se filtren en función de factores demográficos. La minería de datos no se trata principalmente de gráficos sofisticados y técnicas de visualización, pero los emplea para mostrar lo que ha encontrado. Se sabe que podemos absorber más información estadística visualmente que verbalmente y este formato de presentación puede ser muy persuasivo y poderoso si se usa en el contexto adecuado.

A medida que nuestra civilización se satura cada vez más de datos y los sensores se distribuyen en masa en nuestros entornos locales, inadvertidamente descubriremos cosas que podrían perderse en la primera pasada. La minería de datos nos permitirá corregir estos errores y descubrir nuevos conocimientos basados ​​en datos anteriores, lo que nos permitirá aprovechar mejor nuestro dinero en almacenamiento de datos.