Che cos’è Change Data Capture?

L’acquisizione dei dati delle modifiche è il processo di individuazione, registrazione e salvataggio dei record di versione nei sistemi di dati. Nella maggior parte dei casi, i sistemi di acquisizione dei dati di modifica funzionano assegnando ai dati determinati indicatori che fanno riferimento a voci di dati specifiche. Quando i dati vengono modificati, cambiano anche questi indicatori. Questo avvisa il sistema di acquisizione dei dati di modifica e salva la versione precedente dei dati, dando agli utenti e ai sistemi l’accesso ai dati vecchi e nuovi. Questi processi sono comuni nei grandi sistemi di archiviazione dei dati come i data warehouse e i sistemi di dati basati sul web.

Il controllo delle versioni dei dati è considerato un aspetto molto importante dell’archiviazione dei dati. Quando un pezzo di dati viene sovrascritto da un altro, il pezzo di dati originale non può semplicemente scomparire. Ciò causerebbe il caos se quell’informazione fosse importante per un processo in corso o per un record aziendale.

La creazione di versioni di dati diversi è il fulcro dell’acquisizione dei dati di modifica. Se una singola informazione cambia cinque volte, il sistema deve ricordare ciascuno dei cinque valori e quando sono cambiati. Questo è importante sia per la tenuta dei registri a lungo termine che per il controllo degli errori. Ad esempio, se un lavoratore imputasse una cifra di vendita nella parte sbagliata di un database, potrebbe interrompere un’enorme quantità di informazioni. Il controllo delle versioni consente all’azienda di ripristinare tale numero se necessario.

Non esiste un metodo predefinito per modificare l’acquisizione dei dati. Diversi sistemi di dati utilizzano le proprie versioni, spesso sviluppate internamente per adattarsi al proprio stile specifico di archiviazione dei dati. Anche così, ci sono una manciata di metodi comunemente usati. Non è insolito per un singolo sistema avere diversi metodi di acquisizione dei dati di modifica che operano sullo stesso sistema. Spesso, ogni metodo è specializzato in un certo tipo di acquisizione o opera come un sistema ridondante di sicurezza.

I metodi più comuni per creare versioni differenti di dati sono marcatori speciali nei dati. Questi indicatori si trovano in una riga o colonna speciale nei dati che tiene traccia di quando si verificano modifiche. Gli script di acquisizione dei dati di modifica controllano queste aree per le modifiche e tengono traccia delle modifiche apportate. Queste celle speciali potrebbero contenere numeri di versione, timestamp o stringhe di dati proprietari.

I due luoghi più comuni per trovare sistemi di acquisizione dei dati di modifica su vasta scala sono nei data warehouse e nei database ad accesso aperto. Uno dei principali punti di forza del data warehousing è il backup costante e completo dei dati. Finché un utente si abbona ai loro servizi, questi sistemi non si sbarazzano mai di nulla. I database ad accesso aperto, come Wikipedia, utilizzano il controllo delle versioni per impedire la manomissione e tenere traccia di quali utenti hanno apportato quali modifiche. Sebbene il versionamento di Wikipedia possa non essere completo come quelli utilizzati nei data warehouse, viene spesso esaminato da più utenti.