¿Qué es la deduplicación?

La deduplicación es un proceso que se utiliza para eliminar datos redundantes. Durante el proceso, se escanea el disco duro de una computadora en busca de grandes secuencias de datos en las ventanas de comparación. Al buscar datos duplicados, normalmente se seleccionan secuencias de ocho kilobytes o más. Si la secuencia se encuentra en otra parte del sistema de almacenamiento, se hace referencia al archivo duplicado en lugar de volver a almacenarse.

Una deduplicación exitosa puede eliminar varios kilobytes de datos en una computadora, lo que genera beneficios obvios. La duplicación de datos ocupa un espacio innecesario en el sistema y, cuando se eliminan datos extraños, esto deja al usuario con más espacio de almacenamiento en la computadora. Esto permitirá que el sistema funcione más rápido y de manera más eficiente porque no se atasca con los datos adicionales. Además, la mejora del ancho de banda siempre es más notable cuando una computadora tiene más espacio libre.

La deduplicación implica referenciar la gran cantidad de datos a la primera ubicación y eliminar las copias adicionales de los datos, que, sin embargo, se indexan en caso de que sean necesarias. A menudo, los mismos datos exactos se pueden almacenar en hasta 100 lugares diferentes en un disco duro. Si cada uno ocupa un megabyte de espacio, la deduplicación reducirá este espacio en el disco duro de 100 megabytes a solo uno. El proceso funciona archivando los datos, y el espacio adicional que se gana es muy beneficioso para el disco duro de una computadora.

Los beneficios adicionales de la deduplicación incluyen reducir la cantidad de espacio de respaldo necesario hasta en un 90 por ciento, reducir costos como los requisitos de energía, espacio y enfriamiento, restaurar un nivel más alto de servicio, eliminar muchos tipos diferentes de errores y recuperar datos en varios diferentes puntos. Un inconveniente de la deduplicación es que identifica los datos duplicados mediante funciones de hash criptográficas, que pueden no ser fiables, y una colisión u otro tipo de error provocaría la pérdida de datos. Además, si la persona que autorizó el procedimiento no es consciente de la reducción de redundancia involucrada, la confiabilidad de la computadora puede verse afectada negativamente.

La deduplicación de datos funciona segmentando primero cada dato que se procesa. Cada segmento se identifica y se compara con los datos que ya están en el sistema. Si los datos son únicos, se almacenan en un disco. Si se trata de un dato duplicado, se crea una referencia en su lugar. La deduplicación se puede implementar utilizando un software llamado Data Domain, que trabaja con datos y sistemas de almacenamiento para filtrar los datos, referenciar, eliminar o almacenar cada byte, según corresponda.