¿Qué es la deduplicación de datos?

La deduplicación de datos es una técnica para comprimir datos en la que se eliminan los datos duplicados, manteniendo una copia de cada unidad de información en un sistema en lugar de permitir que los múltiples prosperen. Las copias retenidas tienen referencias que permiten al sistema recuperarlas. Esta técnica reduce la necesidad de espacio de almacenamiento y puede mantener los sistemas funcionando más rápido, además de limitar los gastos asociados con el almacenamiento de datos. Puede funcionar de varias formas y se utiliza en muchos tipos de sistemas informáticos.

En la deduplicación de datos a nivel de archivo, el sistema busca archivos duplicados y elimina los extras. La deduplicación a nivel de bloque examina los bloques de datos dentro de los archivos para identificar datos extraños. Las personas pueden terminar con datos duplicados por una amplia variedad de razones, y el uso de la deduplicación de datos puede agilizar un sistema, haciéndolo más fácil de usar. El sistema puede analizar periódicamente los datos para comprobar si hay duplicados, eliminar extras y generar referencias para los archivos que quedan.

A veces, estos sistemas se denominan sistemas de compresión inteligentes o sistemas de almacenamiento de instancia única. Ambos términos hacen referencia a la idea de que el sistema funciona de manera inteligente para almacenar y archivar datos con el fin de reducir la carga en el sistema. La deduplicación de datos puede ser especialmente valiosa en sistemas grandes donde se almacenan datos de varias fuentes y los costos de almacenamiento aumentan constantemente, ya que el sistema debe expandirse con el tiempo.

Estos sistemas están diseñados para ser parte de un sistema más grande para comprimir y administrar datos. La deduplicación de datos no puede proteger los sistemas de virus y fallas, y es importante utilizar una protección antivirus adecuada para mantener un sistema seguro y limitar la contaminación viral de los archivos, al mismo tiempo que se realiza una copia de seguridad en una ubicación separada para abordar las preocupaciones sobre la pérdida de datos debido a interrupciones, daños a equipo, etc. Tener los datos comprimidos antes de realizar la copia de seguridad le permitirá ahorrar tiempo y dinero.

Los sistemas que utilizan la deduplicación de datos en su almacenamiento pueden funcionar de manera más rápida y eficiente. Todavía requerirán una expansión periódica para acomodar nuevos datos y abordar las preocupaciones sobre la seguridad, pero deberían ser menos propensos a llenarse rápidamente con datos duplicados. Esta es una preocupación especialmente común en los servidores de correo electrónico, donde el servidor puede almacenar grandes cantidades de datos para los usuarios y partes significativas de ellos podrían consistir en duplicados como los mismos archivos adjuntos repetidos una y otra vez; por ejemplo, muchas personas que envían correos electrónicos desde el trabajo tienen pies de página adjuntos con renuncias de responsabilidad por correo electrónico y logotipos de la empresa, y estos pueden consumir espacio en el servidor rápidamente.