La arquitectura de almacenamiento de datos es un diseño que encapsula todas las facetas del almacenamiento de datos para un entorno empresarial. El almacenamiento de datos es la creación de un dominio central para almacenar datos empresariales complejos y descentralizados en una unidad lógica que permite la extracción de datos, la inteligencia empresarial y el acceso general a todos los datos relevantes dentro de una organización. La arquitectura del almacén de datos incluye todos los requisitos de informes, gestión de datos, requisitos de seguridad, requisitos de ancho de banda y requisitos de almacenamiento.
Al crear una arquitectura de almacén de datos, es importante dividir la arquitectura en dominios específicos que se unen en un diseño final holístico. Este diseño debe considerarse el anteproyecto de la arquitectura de datos empresariales. En particular, se deben desarrollar varias áreas primarias al considerar la arquitectura del almacén de datos. Estas áreas son el acceso al sistema de origen, el proceso del área de preparación, el proceso de enriquecimiento de datos, la arquitectura de datos, el proceso de inteligencia empresarial y los requisitos de almacenamiento.
El almacenamiento de datos requiere que los datos de origen se transfieran desde una base de datos transaccional o de registro al almacén de datos. Este proceso se simplifica en el término Extraer transformación y carga (ETL), que básicamente encapsula las áreas de acceso al sistema de origen, enriquecimiento de datos y arquitectura de datos. En aras de la claridad, es mejor diseñar estas áreas arquitectónicas en detalle, lo que describe cómo se logrará el proceso ETL. Si bien se requieren algunos datos de los sistemas de origen, no todos los datos son deseables, ya que sobrecargarían el almacén empresarial. Las principales áreas de preocupación al abordar la capa del sistema de origen son las metodologías de acceso a los datos, los datos requeridos del sistema de origen y los requisitos de actualización.
La siguiente capa de arquitectura de almacenamiento de datos a considerar es el proceso del área de preparación. Como la mayoría de los datos de los sistemas de origen requerirán validación y limpieza de datos, es importante crear una zona de aterrizaje para que los datos de origen residan antes de cargarlos en la capa de reglas comerciales del almacén de datos. El área de preparación mantiene las fuentes de datos sin procesar de los sistemas de origen que suelen tener una marca de tiempo para garantizar la actualidad de los datos.
El proceso de enriquecimiento de datos o reglas comerciales es donde los datos se limpian para cumplir con el resultado deseado del almacén de datos. Un buen ejemplo de este enfoque de limpieza es el uso de herramientas de limpieza de direcciones; en el caso de que el sistema de origen tenga datos incorrectos, el proceso de enriquecimiento de datos ejecutará la dirección del conjunto de datos sin procesar en un sistema de reglas comerciales que corregiría las direcciones no válidas. Este es también el momento en el que se eliminan o modifican datos inexactos para garantizar la integridad dentro del almacén de datos.
La siguiente capa a considerar es la capa de arquitectura de datos. Esta área es donde se completa el verdadero diseño o esquema del almacén de datos empresarial. El almacenamiento de datos no es una combinación de todos los conjuntos de datos dentro de una empresa, sino que es una base de datos recién definida creada para permitir una descripción general de todas las entidades comerciales dentro de la empresa.
Esto requiere que la arquitectura de datos responda a las preguntas que se plantearán las empresas en el área de inteligencia empresarial y minería de datos. Al crear la arquitectura de datos de esta manera, los conjuntos de datos sin procesar se transformarán en tablas de hechos que permitirán a los usuarios realizar informes ad-hoc sobre toda la vista empresarial en lugar de una base de datos específica. Esta es también el área que mantendrá los metadatos sobre los datos del sistema sin procesar, que podrían incluir el nombre del sistema de origen o las claves primarias.
La siguiente área a considerar es la inteligencia empresarial y los requisitos de informes. Esta capa se puede considerar como el requisito de cara al usuario para el almacenamiento de datos. Por lo general, esta área contiene informes enlatados, capacidad de generación de informes ad-hoc y paneles o alertas empresariales. Las capas de inteligencia empresarial normalmente reciben la mayor consideración, ya que es el único componente externo dentro del almacén de datos.
La última capa a considerar son los requisitos generales de almacenamiento de datos y el mantenimiento. A medida que un almacén de datos continúa creciendo y expandiéndose, el almacenamiento de datos de la base de usuarios debe administrarse y mantenerse estrictamente. Además, al crear la arquitectura del almacén de datos, el diseño debe realizar estimaciones realistas de lo que se requerirá de una capacidad de almacenamiento de datos, así como una banda con capacidad de acceso a datos. Estos requisitos serán fundamentales a medida que el almacén de datos se utilice ampliamente en toda la empresa.