La “integración semántica” es un término que se utiliza en varios contextos en diferentes áreas del diseño, la programación, la gestión y la administración de computadoras. En general, se refiere a la agregación de información de una o más fuentes dispares con el propósito de crear algún sistema en el que la información se organice de una manera que tenga sentido para el usuario. La integración semántica con frecuencia se ocupa de definir y establecer conexiones de metadatos, o relaciones, entre diferentes partes de las diferentes fuentes de datos para que puedan estructurarse lógicamente. Esto podría implicar la creación de conexiones relacionales entre dos bases de datos separadas, la construcción de un gráfico de cómo se relacionan entre sí partes de diferentes sitios web o la integración de datos fácticos de un formato arbitrario desconocido en una estructura de registro concisa. Existen muchas aplicaciones prácticas para un sistema de integración semántica completamente implementado, incluidas bibliotecas o redes de investigación, algoritmos de motores de búsqueda más orgánicos que pueden extrapolar el contexto de una búsqueda y, en última instancia, mediante el uso de la publicación de metadatos, una integración perfecta de diferentes sistemas informáticos para el intercambio de datos. .
El objetivo final de la integración semántica en la mayoría de los casos es poder asociar información de forma dinámica. En un ejemplo muy simple, esto podría significar poder asociar campos en una base de datos con campos en otra base de datos, a pesar de que no son coincidencias exactas, como relacionar un campo llamado «tamaño» con un campo llamado «altura». Esta asociación podría realizarse mediante reglas definidas por el usuario que vinculen específicamente a los dos, o podría realizarse con algoritmos que comparen los datos numéricos de los campos y determinen una coincidencia probable. Las palabras «tamaño» y «altura» se convierten en términos de metadatos que otros sistemas de integración semántica externos podrían utilizar para encontrar la información de un usuario sin tener que saber específicamente cómo un sistema individual almacena los datos.
En los sistemas de integración semántica complejos, como los diseñados para la investigación, la publicación y el intercambio de metadatos es un componente clave para el funcionamiento. Los metadatos se pueden extraer de los documentos para formar grandes estructuras de datos relacionales que pueden ayudar en las consultas. Esto significa que los artículos de investigación sobre cualquier tema se pueden integrar en un sistema que mide y registra la frecuencia de las palabras, y esas palabras pueden ayudar en la búsqueda de información por parte del usuario, lo que permite que los temas relacionados se enumeren desde cualquier fuente sin la necesidad de conversiones específicas.
Uno de los desafíos que enfrentan los diseñadores de sistemas de integración semántica es cómo agregar los datos. El uso de seres humanos para clasificar y establecer relaciones entre datos de diversas fuentes puede llevar mucho tiempo y, en última instancia, depender mucho de las experiencias individuales de la persona. Cuando se utilizan algoritmos para realizar asociaciones automáticamente, es posible que se pasen por alto determinadas relaciones debido a una pequeña diferencia que el algoritmo no puede resolver. Un método para implementar la integración semántica a gran escala utiliza algoritmos basados en el aprendizaje junto con la gestión de reglas basadas en humanos y, en algunos casos, la toma de decisiones humanas reales durante el proceso.