L’architettura del data warehouse è un design che incapsula tutti gli aspetti del data warehousing per un ambiente aziendale. Il data warehousing è la creazione di un dominio centrale per archiviare dati aziendali complessi e decentralizzati in un’unità logica che consente il data mining, la business intelligence e l’accesso generale a tutti i dati rilevanti all’interno di un’organizzazione. L’architettura del data warehouse include tutti i requisiti di reporting, gestione dei dati, requisiti di sicurezza, requisiti di larghezza di banda e requisiti di archiviazione.
Quando si crea un’architettura di data warehouse, è importante suddividere l’architettura in domini specifici che vengono uniti in un progetto finale olistico. Questo design dovrebbe essere considerato il modello per l’architettura dei dati aziendali. In particolare, dovrebbero essere sviluppate diverse aree primarie quando si considera l’architettura del data warehouse. Queste aree sono l’accesso al sistema di origine, il processo dell’area di staging, il processo di arricchimento dei dati, l’architettura dei dati, il processo di business intelligence e i requisiti di archiviazione.
Il data warehousing richiede che i dati di origine vengano trasferiti da un database transazionale o di record al data warehouse. Questo processo è semplificato nel termine Extract Transform and Load (ETL), che fondamentalmente incapsula le aree dell’accesso al sistema di origine, dell’arricchimento dei dati e dell’architettura dei dati. Per motivi di chiarezza, è meglio progettare queste aree architettoniche in dettaglio, che delinea come verrà realizzato il processo ETL. Sebbene alcuni dati siano richiesti dai sistemi di origine, tutti i dati non sono desiderabili in quanto sovraccaricherebbero il magazzino aziendale. Le principali aree di interesse quando si affronta il livello del sistema di origine sono le metodologie di accesso ai dati, i dati richiesti dal sistema di origine e i requisiti di aggiornamento.
Il successivo livello architetturale di data warehousing da considerare è il processo dell’area di staging. Poiché la maggior parte dei dati provenienti dai sistemi di origine richiede la convalida e la pulizia dei dati, è importante creare una zona di destinazione in cui i dati di origine risiedano prima del caricamento nel livello delle regole di business del data warehouse. L’area di staging conserva i feed di dati grezzi dai sistemi di origine che sono in genere contrassegnati da un timestamp per garantire l’attualità dei dati.
L’arricchimento dei dati o il processo delle regole di business è dove i dati vengono puliti per soddisfare il risultato desiderato del data warehouse. Un buon esempio di questo approccio di pulizia è l’utilizzo di strumenti di pulizia degli indirizzi; nel caso in cui il sistema di origine contenga dati errati, il processo di arricchimento dei dati eseguirà l’indirizzo dal set di dati non elaborati in un sistema di regole aziendali che correggerà gli indirizzi non validi. Questo è anche il momento in cui i dati imprecisi vengono cancellati o modificati per garantire la completezza all’interno del data warehouse.
Il livello successivo da considerare è il livello dell’architettura dei dati. Quest’area è dove viene completato il vero design o schema del data warehouse aziendale. Il data warehousing non è una combinazione di tutti i set di dati all’interno di un’azienda, ma è invece un database appena definito creato per consentire una panoramica di tutte le entità aziendali all’interno dell’azienda.
Ciò richiede che l’architettura dei dati risponda alle domande che verranno poste dall’azienda nell’area della business intelligence e del data mining. Creando l’architettura dei dati in questo modo, i set di dati grezzi verranno trasformati in tabelle dei fatti che consentiranno agli utenti di eseguire report ad hoc sull’intera vista aziendale piuttosto che su un database specifico. Questa è anche l’area che manterrà i metadati sui dati dal sistema non elaborato, che potrebbe includere il nome del sistema di origine o le chiavi primarie.
L’area successiva da considerare è la business intelligence e i requisiti di reporting. Questo livello può essere considerato come il requisito rivolto all’utente per il data warehousing. In genere, quest’area contiene report predefiniti, funzionalità di reporting ad-hoc e dashboard o avvisi aziendali. I livelli di business intelligence normalmente ricevono la massima considerazione, in quanto è l’unico componente rivolto verso l’esterno all’interno del data warehouse.
Il livello finale da considerare è la manutenzione e i requisiti generali di archiviazione dei dati. Poiché un data warehouse continua a crescere ed espandersi, l’archiviazione dei dati della base di utenti deve essere rigorosamente gestita e mantenuta. Inoltre, durante la creazione dell’architettura del data warehouse, il progetto dovrebbe fare stime realistiche su ciò che sarà richiesto da una capacità di archiviazione dati e da una banda con capacità di accesso ai dati. Questi requisiti saranno fondamentali man mano che il data warehouse diventerà ampiamente utilizzato in tutta l’azienda.