Cos’è la Canonicalizzazione?

La parola canonico significa qualcosa che è conforme a uno standard accettato. La canonicalizzazione, o canonicalizzazione in inglese britannico, è il processo mediante il quale qualcosa viene reso conforme allo standard accettato. Nel campo dei computer, il termine canonicalizzazione è usato per riferirsi al rispetto degli standard in diverse aree. Spesso è considerato il problema, quando in realtà è la soluzione a una varietà di problemi. Poiché è una parola così lunga, la canonicalizzazione viene abbreviata utilizzando la prima e l’ultima lettera e il numero di lettere intermedie: c14n.

La canonicalizzazione viene utilizzata nell’IT (Information Technology) in diversi contesti. Si riferisce agli indirizzi dei mittenti di posta elettronica, alla costruzione di nomi di file, alla codifica delle stringhe in Unicode, all’uso di XML (EXtensible Markup Language) e alla costruzione di URL (Uniform Resource Locator). In ogni caso, il problema è la capacità di più formati che rappresentano lo stesso articolo, con la canonicalizzazione che è la via per la coerenza e la standardizzazione.

Prendi XML come esempio. XML consente modifiche sintattiche. Ciò significa che due documenti non identici potrebbero avere la stessa forma canonica, e quindi essere funzionalmente equivalenti. La specifica Canonical XML è stata progettata per risolvere questo problema stabilendo un metodo con cui è possibile stabilire l’identità di documenti separati. Il metodo per generare la forma canonica per un dato documento XML è chiamato metodo di canonicalizzazione XML.

Per la canonicalizzazione degli URL, l’idea è di fare riferimento a una pagina Web specifica in modo coerente da un URL. L’esempio più semplice sono due versioni di una homepage, una delle quali ha le tre w e l’altra no:

http://www.wisegeek.com

contro
http://wisegeek.com
Questo è un problema per la SEO (Search Engine Optimization) perché divide i report per il traffico, che in realtà sta andando tutti nello stesso posto. Il risultato è che il sito con più URL per le stesse pagine sembra funzionare più male di quanto non sia in realtà.
Ci sono altri problemi oltre alle w. Questi includono le barre finali e le differenze tra le versioni dell’URL con lettere maiuscole e minuscole. Matt Cutts di Google® consiglia di risolvere questo problema utilizzando un reindirizzamento permanente (301) di tutti gli URL alternativi all’URL desiderato, consentendo ai motori di ricerca di giudicare quale sia l’URL canonico.