Che cos’è lo scrubbing dei dati?

Lo scrubbing dei dati, a volte chiamato pulizia dei dati, è il processo di rilevamento e rimozione o correzione di qualsiasi informazione in un database che presenta una sorta di errore. Questo errore può essere dovuto al fatto che i dati sono errati, incompleti, formattati in modo errato o sono una copia duplicata di un’altra voce. Molti settori di attività ad alta intensità di dati come banche, assicurazioni, vendita al dettaglio, trasporti e telecomunicazioni possono utilizzare queste sofisticate applicazioni software per ripulire le informazioni di un database.

Gli errori nei database possono essere il risultato di errori umani nell’inserimento dei dati, la fusione di due database, la mancanza di standard di codifica dei dati a livello aziendale o di settore o a causa di vecchi sistemi che contengono dati imprecisi o obsoleti. Prima che i computer avessero la capacità di ordinare e pulire i dati, la maggior parte delle operazioni di pulizia veniva eseguita manualmente. Non solo questo richiedeva tempo e denaro, ma spesso portava a un errore umano ancora maggiore.

La necessità dello scrubbing dei dati è resa chiara quando si considera la facilità con cui si possono commettere errori. In un database di nomi e indirizzi, ad esempio, un nome potrebbe essere Bobby Johnson di Needham, MA, mentre un altro è Bob Johnson di Needham, MA. Questa variazione di nomi è molto probabilmente un errore e si riferisce a una persona. Tuttavia, normalmente un computer tratterebbe le informazioni come se si trattasse di due persone diverse. Un software specializzato per la pulizia dei dati è in grado di distinguere la discrepanza e risolverla.

Sebbene questi piccoli errori possano sembrare un problema banale, quando si uniscono dati corrotti o errati in più database, il problema può essere moltiplicato per milioni. Questi cosiddetti “dati sporchi” sono stati un problema da quando ci sono stati i computer, ma stanno diventando più critici poiché le aziende stanno diventando più complesse e i data warehouse stanno unendo dati da più fonti. Non ha senso avere un database completo se quel database è pieno di errori e informazioni controverse.
Le aziende che utilizzano software specializzato possono svilupparlo internamente o acquistarlo da una varietà di fornitori. Il software non è economico e può variare da un prezzo di $ 20,000 a $ 300,000 dollari USA (USD). Spesso richiede anche alcune personalizzazioni in modo che il software funzioni in base alle esigenze specifiche dell’azienda. Passa attraverso un processo di utilizzo di algoritmi per standardizzare, correggere, abbinare e consolidare i dati ed è in grado di lavorare con uno o più set di dati.
Lo scrubbing dei dati a volte viene saltato come parte di un’implementazione di data warehouse, ma è uno dei passaggi più critici per avere un prodotto finale buono e accurato. Poiché verranno sempre commessi errori nell’inserimento dei dati, sarà sempre necessario questo processo.