Che cos’è la corrispondenza dello schema?

La corrispondenza dello schema è una tecnica utilizzata per unire due o più database complessi o insiemi di informazioni l’uno nell’altro. Poiché l’uso di database e archiviazione elettronica delle informazioni diventa sempre più ampio e complesso attraverso Internet, devono essere definiti metodi per unire insiemi di dati da un database all’altro e la corrispondenza dello schema è una di queste tecniche. Il concetto è semplice, ma la realtà dell’unione dei dati è piuttosto complessa.

Il termine “corrispondenza dello schema” è utilizzato come sinonimo di “mappatura dello schema”, perché gli utenti stanno effettivamente mappando i dati, non li abbinano. Due o più database vengono mappati insieme e aspetti simili di ciascun database vengono mappati l’uno nell’altro. Il modo più comune per unire i dati consiste nell’usare riferimenti esatti. Un esempio di questo stile di fusione è la combinazione della colonna del nome di un database con la colonna del nome di un altro database.

La fusione di solito non è così semplice, per persone o computer. Con così tanti dati che devono essere filtrati, combinati e utilizzati, è essenziale disporre di un database anziché di più database. La mappatura dello schema si concentra sul rendere questo noioso processo automatizzato e più efficiente. Un esempio di dove è necessaria la corrispondenza dello schema potrebbe essere quando un database ha un campo “principale dello studente” e un altro database ha un campo “campo di studio dello studente”. Sono le stesse informazioni, ma i titoli leggermente diversi complicano gli sforzi per fonderle.

Lo schema matching suddivide questo complesso processo di fusione dei database in quattro fasi: pre-integrazione, confronto, conformazione e fusione. Prima che più database possano essere uniti, devono essere analizzati per somiglianze e differenze. Nel regno della corrispondenza dello schema, questo è noto come pre-integrazione. Il computer inizia a determinare il metodo di integrazione più efficiente.

Successivamente, il computer valuta gli schemi confrontandoli tra loro a un livello più dettagliato. Nella fase di confronto, il computer esamina ogni voce del database e determina dove potrebbero esserci conflitti. Un esempio di ciò è quando un campo “interesse dello studente” elenca “dottore” e un altro database lo elenca come “medico”. Una persona probabilmente riconoscerebbe le informazioni come identiche ma, per gli strumenti di database, sono due entità separate.

Una volta che il computer ha determinato tutti i potenziali conflitti, può procedere con il tentativo di risolvere i problemi. Questo può essere semplice come cambiare tutte le istanze di “medico” in “dottore”. In realtà, il processo è sostanzialmente più complesso.
Una volta risolti tutti i conflitti, il computer può procedere con l’unione dei dati nel processo di corrispondenza dello schema. In questa fase, due o più database vengono uniti in un unico grande database. Se tutto va bene, non si verificheranno conflitti o errori durante l’integrazione e l’accesso futuro al database.