Che cos'è la deduplicazione dei dati?

La deduplicazione dei dati è una tecnica per comprimere i dati in cui i dati duplicati vengono eliminati, mantenendo una copia di ciascuna unità di informazioni su un sistema piuttosto che consentire a più unità di prosperare. Le copie conservate hanno riferimenti che consentono al sistema di recuperarle. Questa tecnica riduce la necessità di spazio di archiviazione e può mantenere i sistemi in esecuzione più velocemente oltre a limitare le spese associate all’archiviazione dei dati. Può funzionare in diversi modi ed è utilizzato su molti tipi di sistemi informatici.

Nella deduplicazione dei dati a livello di file, il sistema cerca eventuali file duplicati ed elimina gli extra. La deduplicazione a livello di blocco esamina i blocchi di dati all’interno dei file per identificare i dati estranei. Le persone possono ritrovarsi con dati raddoppiati per un’ampia varietà di motivi e l’utilizzo della deduplicazione dei dati può semplificare un sistema, rendendolo più facile da usare. Il sistema può esaminare periodicamente i dati per verificare la presenza di duplicati, eliminare gli extra e generare riferimenti per i file lasciati indietro.

Tali sistemi sono talvolta indicati come sistemi di compressione intelligenti o sistemi di storage a istanza singola. Entrambi i termini fanno riferimento all’idea che il sistema funzioni in modo intelligente per archiviare e archiviare i dati al fine di ridurre il carico sul sistema. La deduplicazione dei dati può essere particolarmente preziosa con sistemi di grandi dimensioni in cui vengono archiviati dati provenienti da diverse fonti e i costi di archiviazione sono in costante aumento, poiché il sistema deve essere ampliato nel tempo.

Questi sistemi sono progettati per essere parte di un sistema più ampio per la compressione e la gestione dei dati. La deduplicazione dei dati non può proteggere i sistemi da virus e guasti ed è importante utilizzare un’adeguata protezione antivirus per mantenere un sistema sicuro e limitare la contaminazione virale dei file, mentre si esegue anche il backup in una posizione separata per affrontare i problemi di perdita di dati dovuta a interruzioni, danni a attrezzatura, e così via. La compressione dei dati prima del backup farà risparmiare tempo e denaro.

I sistemi che utilizzano la deduplicazione dei dati nel proprio storage possono essere eseguiti in modo più rapido ed efficiente. Richiederanno comunque un’espansione periodica per accogliere nuovi dati e affrontare le preoccupazioni sulla sicurezza, ma dovrebbero essere meno inclini a riempirsi rapidamente con dati duplicati. Questa è una preoccupazione particolarmente comune sui server di posta elettronica, dove il server può memorizzare grandi quantità di dati per gli utenti e parti significative di esso potrebbero consistere in duplicati come gli stessi allegati ripetuti più e più volte; ad esempio, molte persone che inviano e-mail dal lavoro hanno allegato piè di pagina con dichiarazioni di non responsabilità e loghi aziendali, che possono occupare rapidamente spazio sul server.