La minería de datos estadísticos, también conocida como conocimiento o descubrimiento de datos, es un método computarizado de recopilar y analizar información. La herramienta de extracción de datos toma datos y categoriza la información para descubrir patrones o correlaciones que se pueden usar en aplicaciones importantes, como medicina, programación de computadoras, promoción comercial y diseño robótico. Las técnicas de minería de datos estadísticos utilizan matemáticas complejas y procesos estadísticos complicados para crear un análisis.
La minería de datos implica cinco pasos principales. La primera aplicación de minería de datos recopila datos estadísticos y coloca la información en un programa de tipo almacén. A continuación, se organizan los datos del almacén y se crea un sistema de gestión. El siguiente paso crea una forma de acceder a los datos administrados. Luego, el cuarto paso desarrolla un software para analizar los datos, también conocido como regresión de minería de datos, mientras que el paso final facilita el uso o interpretación de los datos estadísticos de una manera práctica.
Generalmente, las técnicas de minería de datos integran sistemas de datos analíticos y de transacciones. El software analítico clasifica ambos tipos de sistemas de datos utilizando preguntas de usuario abiertas. Las preguntas abiertas permiten innumerables respuestas para que los programadores no influyan en los resultados de la clasificación. Los programadores crean listas de preguntas para ayudar a categorizar la información utilizando un enfoque general.
Luego, la clasificación se basa en el desarrollo de clases y grupos de datos, las asociaciones que se encuentran en los datos y los intentos de definir patrones y tendencias basados en las asociaciones. Por ejemplo, Google recopila información sobre los hábitos de compra de los usuarios para ayudar a colocar publicidad en línea. Las preguntas abiertas que se utilizan para clasificar los datos del comprador se centran en las preferencias de compra o los hábitos de visualización de los usuarios de Internet.
Los informáticos y los programadores se centran en el análisis de los datos estadísticos que se recopilan. La creación de árboles de decisión, las redes neuronales artificiales, el método del vecino más cercano, la inducción de reglas, la visualización de datos y los algoritmos genéticos utilizan todos los datos extraídos estadísticamente. Estos sistemas de clasificación ayudan a interpretar las asociaciones descubiertas por los programas de datos analíticos. La minería de datos estadísticos implica pequeños proyectos que se pueden realizar a pequeña escala en una computadora doméstica, pero la mayoría de los conjuntos de asociaciones de minería de datos son tan grandes y la regresión de la minería de datos tan complicada que requieren una supercomputadora o una red de computadoras de alta velocidad.
La minería de datos estadísticos recopila tres tipos generales de datos, incluidos datos operativos, datos no operativos y metadatos. En una tienda de ropa, los datos operativos son datos básicos que se utilizan para administrar el negocio, como la contabilidad, las ventas y el control de inventario. Los datos no operativos, que están indirectamente relacionados con el negocio, incluyen estimaciones de ventas futuras e información general sobre el mercado nacional de la ropa. Los metadatos se refieren a los datos en sí. Un programa que utiliza metadatos puede clasificar a los clientes de la tienda en clasificaciones según el género o la ubicación geográfica de los compradores de ropa o el color favorito de los clientes, si se recopilaron esos datos.
Una aplicación de minería de datos puede ser extremadamente sofisticada y la herramienta de minería de datos estadísticos puede tener aplicaciones prácticas generalizadas. El estudio de los brotes de enfermedades es un ejemplo. Un proyecto de minería de datos de 2000 analizó el brote de la enfermedad de Cryptosporidium en Ontario, Canadá, para determinar las causas del aumento de casos de enfermedad. Los resultados de la extracción de datos ayudaron a vincular el brote de bacterias con las condiciones locales del agua y la falta de un tratamiento municipal adecuado del agua. Un campo llamado “biovigilancia” utiliza la minería de datos epidemiológicos para identificar brotes de una sola enfermedad.
Los programadores y diseñadores de computadoras también emplean el estudio de probabilidad y análisis de datos estadísticos para desarrollar máquinas y programas de computadora. El motor de búsqueda de Google en Internet se diseñó utilizando minería de datos estadísticos. Google continúa recopilando y utilizando la minería de datos para crear actualizaciones de programas y aplicaciones.