“Integrazione semantica” è un termine utilizzato in diversi contesti in diverse aree di progettazione, programmazione, gestione e amministrazione di computer. In generale, si riferisce all’aggregazione di informazioni da una o più fonti disparate allo scopo di creare un sistema in cui le informazioni sono organizzate in modo sensato per un utente. L’integrazione semantica si occupa spesso di definire e stabilire connessioni di metadati, o relazioni, tra diverse parti delle diverse fonti di dati in modo che possano essere strutturate logicamente. Ciò potrebbe comportare la creazione di connessioni relazionali tra due database separati, la costruzione di un grafico di come parti di siti Web diversi si relazionano tra loro o l’integrazione di dati fattuali da un formato sconosciuto e arbitrario in una struttura di record concisa. Esistono molte applicazioni pratiche per un sistema di integrazione semantica completamente implementato, comprese biblioteche o reti di ricerca, algoritmi di motori di ricerca più organici che possono estrapolare il contesto da una ricerca e, in definitiva, attraverso l’uso della pubblicazione di metadati, l’integrazione perfetta di diversi sistemi informatici per lo scambio di dati .
L’obiettivo finale dell’integrazione semantica nella maggior parte dei casi è quello di essere in grado di associare le informazioni in modo dinamico. In un esempio molto semplice, questo potrebbe significare poter associare campi di un database a campi di un altro database, nonostante non siano corrispondenze esatte, come ad esempio mettere in relazione un campo denominato “dimensione” con un campo denominato “altezza”. Questa associazione potrebbe essere eseguita tramite regole definite dall’utente che legano specificamente i due, oppure potrebbe essere eseguita con algoritmi che confrontano i dati numerici dei campi e determinano una probabile corrispondenza. Le parole “dimensione” e “altezza” diventano quindi termini di metadati che altri sistemi di integrazione semantica esterni potrebbero essere in grado di utilizzare per trovare le informazioni per un utente senza dover sapere in modo specifico come ogni singolo sistema memorizza i dati.
Nei sistemi di integrazione semantica complessi, come quelli progettati per la ricerca, la pubblicazione e la condivisione dei metadati è una componente chiave per il funzionamento. I metadati possono essere selezionati dai documenti per formare grandi strutture di dati relazionali che possono aiutare nelle query. Ciò significa che i documenti di ricerca su qualsiasi argomento possono essere integrati in un sistema che misura e registra la frequenza delle parole e tali parole possono aiutare nella ricerca di informazioni da parte degli utenti, consentendo di elencare argomenti correlati da qualsiasi fonte senza la necessità di conversioni specifiche.
Una delle sfide che devono affrontare i progettisti di sistemi di integrazione semantica è come aggregare i dati. L’utilizzo di esseri umani per classificare e stabilire relazioni tra dati provenienti da varie fonti può richiedere molto tempo e, in definitiva, dipendere molto dalle esperienze individuali della persona. Quando gli algoritmi vengono utilizzati per creare automaticamente associazioni, alcune relazioni potrebbero essere trascurate a causa di alcune piccole differenze che l’algoritmo non è in grado di risolvere. Un metodo per implementare l’integrazione semantica su larga scala utilizza algoritmi basati sull’apprendimento in combinazione con la gestione delle regole basata sull’uomo e, in alcuni casi, l’effettivo processo decisionale umano durante il processo.