Che cos'è la ridondanza dei dati?

La ridondanza dei dati è una situazione che si verifica all’interno dei sistemi di database e comporta la creazione involontaria di dati duplicati non necessari al funzionamento del database. Sebbene la ridondanza sia spesso una caratteristica desiderabile in alcune situazioni, ciò non è vero quando si tratta della funzione di un database. La presenza di dati duplicati può spesso avere un effetto negativo sulla funzione del sistema, con conseguente restituzione di informazioni in risposta alle query di sistema che sono poco utili. Una delle funzioni chiave della gestione dei dati è l’identificazione dei dati duplicati e la rimozione di tali duplicazioni.

Il potenziale per la ridondanza dei dati si trova praticamente in qualsiasi tipo di programma di database. I programmi considerati piatti, come i fogli di calcolo, e che si basano sull’inserimento manuale dei dati sono particolarmente suscettibili alla duplicazione delle informazioni che possono portare a complicazioni quando si tratta di recuperare le informazioni desiderate. I database di stile relazionale, come i database dei contatti di vendita, spesso includono processi che aiutano a ridurre al minimo le possibilità di duplicazione involontaria, come la creazione di due file di contatti diversi sullo stesso contatto associato alla stessa azienda. Anche con l’uso di controlli di sistema per ridurre l’incidenza della ridondanza dei dati, è ancora possibile che si verifichino problemi, rendendo necessario impegnarsi periodicamente nell’attività di pulizia dei dati all’interno di un database.

Nella migliore delle ipotesi, la ridondanza dei dati significa che il database è disseminato di informazioni che non sono essenziali ma non rappresentano una minaccia reale per la capacità di trovare i dati quando e quando necessario. Nel peggiore dei casi, la presenza dei dati duplicati rallenta le funzioni essenziali del database e può complicare il processo di utilizzo del database per gestire determinate attività. Ad esempio, l’utilizzo di un database di clienti intasato di informazioni ridondanti per generare etichette postali comporterebbe la creazione di un numero di livelli duplicati, rendendo necessario l’ordinamento e l’eliminazione dei duplicati prima che le etichette possano essere utilizzate, oppure prendere il tempo per ripulire il database prima di tentare di generare le etichette.

Fortunatamente, il monitoraggio e la correzione della ridondanza dei dati è qualcosa che molti sistemi di gestione dei dati possono realizzare con relativa facilità. Alcuni sistemi segnaleranno l’immissione di dati duplicati, facilitando la revisione della duplicazione percepita e decidendo se eliminarla o consentirne la conservazione. Esistono persino programmi software che possono essere utilizzati per scansionare un database esistente alla ricerca di duplicazioni e rimuovere automaticamente quelle voci ridondanti con relativa facilità.