La depuración de datos, a veces denominada depuración de datos, es el proceso de detectar y eliminar o corregir cualquier información en una base de datos que tenga algún tipo de error. Este error puede deberse a que los datos son incorrectos, están incompletos, tienen un formato incorrecto o son una copia duplicada de otra entrada. Muchos campos de negocios con uso intensivo de datos, como banca, seguros, comercio minorista, transporte y telecomunicaciones, pueden utilizar estas sofisticadas aplicaciones de software para limpiar la información de una base de datos.
Los errores en las bases de datos pueden ser el resultado de errores humanos al ingresar los datos, la fusión de dos bases de datos, la falta de estándares de codificación de datos para toda la empresa o la industria, o debido a sistemas antiguos que contienen datos inexactos o desactualizados. Antes de que las computadoras tuvieran la capacidad de clasificar y limpiar datos, la mayor parte de la limpieza se realizaba a mano. Esto no solo consumía mucho tiempo y era costoso, sino que a menudo conducía a errores humanos aún mayores.
La necesidad de depurar datos queda clara al considerar la facilidad con la que se pueden cometer errores. En una base de datos de nombres y direcciones, por ejemplo, un nombre podría ser Bobby Johnson de Needham, MA, mientras que otro es Bob Johnson de Needham, MA. Esta variación de nombres es probablemente un error y se refiere a una persona. Sin embargo, una computadora normalmente trataría la información como si fueran dos personas diferentes. El software de depuración de datos especializado es capaz de distinguir la discrepancia y corregirla.
Si bien estos pequeños errores pueden parecer un problema trivial, al fusionar datos corruptos o erróneos en varias bases de datos, el problema puede multiplicarse por millones. Estos llamados «datos sucios» han sido un problema desde que existieron las computadoras, pero se están volviendo más críticos a medida que las empresas se vuelven más complejas y los almacenes de datos están fusionando datos de múltiples fuentes. No tiene sentido tener una base de datos completa si esa base de datos está llena de errores e información en disputa.
Las empresas que utilizan software especializado pueden desarrollarlo internamente o comprarlo a una variedad de proveedores. El software no es barato y puede oscilar entre un precio de $ 20,000 300,000 a $ XNUMX XNUMX dólares estadounidenses (USD). A menudo, también requiere cierta personalización para que el software se adapte a las necesidades específicas de la empresa. Pasa por un proceso de uso de algoritmos para estandarizar, corregir, emparejar y consolidar datos y es capaz de trabajar con conjuntos de datos únicos o múltiples.
La depuración de datos a veces se omite como parte de la implementación de un almacén de datos, pero es uno de los pasos más críticos para tener un producto final bueno y preciso. Debido a que siempre se cometerán errores en la entrada de datos, siempre será necesario este proceso.