La deduplicazione è un processo utilizzato per eliminare i dati ridondanti. Durante il processo, il disco rigido di un computer viene scansionato per grandi sequenze di dati attraverso finestre di confronto. Durante la scansione dei dati duplicati, vengono generalmente selezionate sequenze di otto kilobyte o più. Se la sequenza viene trovata altrove nel sistema di archiviazione, viene fatto riferimento al file duplicato anziché essere nuovamente archiviato.
Una deduplica riuscita può eliminare diversi kilobyte di dati su un computer, con evidenti vantaggi. La duplicazione dei dati occupa spazio non necessario nel sistema e, quando i dati estranei vengono rimossi, l’utente dispone di più spazio di archiviazione sul computer. Ciò consentirà al sistema di funzionare più velocemente e in modo più efficiente perché non è impantanato con i dati extra. Inoltre, il miglioramento della larghezza di banda è sempre più evidente quando un computer ha più spazio libero.
La deduplicazione comporta il riferimento della grande quantità di dati alla prima posizione e l’eliminazione delle copie extra dei dati, che vengono tuttavia indicizzate nel caso in cui dovessero essere necessarie. Spesso, gli stessi dati esatti possono essere archiviati in un massimo di 100 posti diversi su un disco rigido. Se ciascuno occupa un megabyte di spazio, la deduplica ridurrà questo spazio sul disco rigido da 100 megabyte a uno solo. Il processo funziona archiviando i dati e lo spazio aggiuntivo che si ottiene è molto vantaggioso per il disco rigido di un computer.
Ulteriori vantaggi della deduplicazione includono la riduzione della quantità di spazio di backup necessaria fino al 90%, la riduzione dei costi come i requisiti di alimentazione, spazio e raffreddamento, il ripristino di un livello di servizio più elevato, l’eliminazione di molti tipi diversi di errori e il ripristino dei dati in diversi punti diversi. Uno svantaggio della deduplicazione è che identifica i dati duplicati utilizzando funzioni di hash crittografiche, che potrebbero essere inaffidabili e una collisione o un altro tipo di errore comporterebbe la perdita di dati. Inoltre, se la persona che ha autorizzato la procedura non è a conoscenza della riduzione della ridondanza, l’affidabilità del computer può essere compromessa.
La deduplicazione dei dati funziona segmentando prima ogni parte di dati che viene elaborata. Ogni segmento viene identificato e confrontato con i dati già presenti nel sistema. Se i dati sono univoci, vengono archiviati su un disco. Se si tratta di un duplicato di dati, viene invece creato un riferimento. La deduplicazione può essere implementata utilizzando un software chiamato Data Domain, che funziona con i dati e i sistemi di archiviazione per filtrare i dati, facendo riferimento, eliminando o archiviando ogni byte, a seconda dei casi.