Cosa sono i dati sporchi?

Dati sporchi è un termine utilizzato per descrivere qualsiasi tipo di dato elettronico obsoleto, incompleto o altrimenti non accurato. Dati di questo tipo possono essere creati a causa di errori di inserimento dati, di mancato aggiornamento periodico dei dati o anche di inserimento degli stessi dati più di una volta. A volte, i dati errati non sono altro che errori di punteggiatura nel testo dei documenti elettronici. In altri casi, i dati sporchi possono essere informazioni intenzionalmente fuorvianti, come i tentativi di modificare i registri contabili per presentare un’immagine specifica agli investitori e ad altri.

Per la maggior parte, l’accumulo di dati sporchi in qualsiasi tipo di database non è intenzionale. Gli individui che inseriscono nuove informazioni nel database possono sbagliare l’ortografia delle parole, omettere la punteggiatura che è importante per comprendere l’intento del testo o non seguire una strategia di formattazione specifica. Con situazioni di questo tipo, correggere le informazioni errate è un processo relativamente semplice che non richiede altro che alterare il testo errato e salvare le modifiche. Le aziende a volte gestiscono questo processo rileggendo i dati dopo che sono stati inseriti e apportando gli aggiornamenti necessari.

I dati sporchi possono anche verificarsi a causa del mancato aggiornamento dei record esistenti quando le informazioni cambiano. Ad esempio, se i venditori non riescono ad aggiornare i file dei clienti quando si verificano cambiamenti di personale con un determinato cliente, quei file non sono più accurati e sono considerati sporchi. Come per la correzione degli errori di ortografia e punteggiatura, prendersi il tempo necessario per rimuovere le informazioni obsolete e sostituirle con dati correnti aiuta ad aumentare l’usabilità complessiva del database.

Ci sono situazioni in cui la creazione di dati sporchi è intenzionale. Le aziende possono scegliere di omettere informazioni specifiche da un database al fine di creare una percezione specifica relativa alle finanze, ad esempio evidenziando l’importo delle entrate generate per un determinato periodo, ma scegliendo di non inserire dati relativi all’importo delle entrate raccolte per lo stesso periodo. In questo tipo di dati sporchi, le informazioni presentate sono accurate per quanto possibile, ma sono considerate incomplete.

Con alcuni tipi di dati sporchi, la decisione potrebbe essere quella di non impiegare tempo e sforzi per apportare correzioni. Ciò è comune quando i dati errati non hanno alcun impatto sulla capacità dell’azienda di funzionare correttamente o non presentano alcun potenziale per causare gravi disagi. Ciò significa che praticamente qualsiasi entità che mantiene un qualche tipo di database probabilmente ha almeno un po’ di dati sporchi intervallati da altre informazioni aggiornate e accurate.