¿Qué es la integración de datos?

La integración de datos es la fusión de múltiples fuentes de datos en una sola fuente de datos. Esta práctica a menudo requiere mucho tiempo y es complicada, ya que es probable que las diferentes fuentes de datos sean incompatibles entre sí. Cosas tan simples como diferentes nombres de columnas en una hoja de cálculo son suficientes para requerir un cambio de formato de fecha. Este proceso es más común en situaciones en las que dos grupos comenzaron sin conexión, pero se colocan juntos después de haber trabajado de forma independiente. La integración de datos se ha convertido en un tema más importante debido a la prevalencia de fuentes de datos gratuitas y bases de datos en línea.

La parte de datos de la integración de datos puede ser casi cualquier cosa siempre que esté almacenada en un sistema informático. El contenido real de los datos rara vez es tan importante como la forma en que se almacenan. La mayoría de las veces, los datos se guardan en bases de datos, sistemas organizados de información. Estos sistemas contienen entradas y campos únicos que permiten a los usuarios encontrar información rápidamente.

El mayor obstáculo para cualquier proceso de integración de datos son los datos en sí. En muchos casos, cuando se configuraron los datos por primera vez, no había ninguna intención de fusionar el conjunto de datos con otro. Esto significa que, aunque dos conjuntos de datos pueden hacer referencia a lo mismo, son totalmente incompatibles.

Casi cualquier cosa hará que las bases de datos sean incompatibles. Algo tan simple como una diferencia en la presentación, como el orden de los campos o el ancho de las columnas, puede ser suficiente para evitar una fusión fácil. Cuando los datos son significativamente diferentes, como una base de datos que contiene más o menos información, la combinación es mucho más difícil.

Las dos situaciones que exigen la integración de datos más que ninguna otra se encuentran en los campos empresarial y de investigación. En el mundo empresarial, la fusión de departamentos o empresas requiere combinar la información previamente separada en una sola estructura. Esta forma de integración es generalmente muy difícil a menos que los grupos originales usaran software similar y tuvieran objetivos de información similares.

Cuando la integración de datos se realiza con fines de investigación, generalmente es mucho más fluida. Cuando un investigador da acceso a su información a otro, las dos partes generalmente están investigando el mismo proceso. Esto significa que utilizarán métodos similares para catalogar y almacenar sus datos.
En el pasado, la integración de datos era un área relativamente menor de los estudios de datos, pero esto ha cambiado desde principios del siglo XXI. Con las bases de datos en línea gratuitas cada vez más populares y precisas, las empresas se esfuerzan por obtener su información en un formato que se pueda compartir. Esto les permite publicar su información en forma pública e integrar versiones privadas de interfaces públicas conocidas en sus sistemas.