La palabra canónico significa algo que se ajusta a un estándar aceptado. La canonicalización, o canonicalización en inglés británico, es el proceso mediante el cual algo se pone en conformidad con el estándar aceptado. En el ámbito de las computadoras, el término canonicalización se usa para referirse al cumplimiento de estándares en varias áreas diferentes. A menudo se considera que es el problema, cuando en realidad es la solución a una variedad de problemas. Dado que es una palabra tan larga, la canonicalización se abrevia usando su primera y última letra y el número de letras entre ellas: c14n.
La canonicalización se utiliza en TI (tecnología de la información) en varios entornos. Se refiere a las direcciones de los remitentes de correo electrónico, a la construcción del nombre de archivo, a la codificación de cadenas en Unicode, al uso de XML (Lenguaje de marcado extensible) y a la construcción de URL (Localizador uniforme de recursos). En todos los casos, el problema es la capacidad para múltiples formatos que representen el mismo ítem, siendo la canonicalización el camino hacia la consistencia y estandarización.
Tome XML como ejemplo. XML permite cambios sintácticos. Esto significa que dos documentos que no son idénticos podrían tener la misma forma canónica y, por lo tanto, ser funcionalmente equivalentes. La especificación Canonical XML se diseñó para abordar este problema mediante el establecimiento de un método mediante el cual se puede establecer la identidad de documentos separados. El método para generar la forma canónica para cualquier documento XML dado se llama método de canonicalización XML.
Para la canonicalización de URL, la idea es hacer referencia a una página web específica de forma coherente mediante una URL. El ejemplo más simple son dos versiones de una página de inicio, una de las cuales tiene las tres w y la otra no:
http://www.Spiegato.com
frente a
http://Spiegato.com
Este es un problema para el SEO (optimización de motores de búsqueda) porque divide los informes por tráfico, que en realidad va al mismo lugar. El resultado es que el sitio con varias URL para las mismas páginas parece estar funcionando peor de lo que realmente es.
Hay otros problemas además de las w. Estos incluyen barras inclinadas y diferencias entre las versiones de URL con letras mayúsculas y minúsculas. Matt Cutts de Google® recomienda abordar esto mediante el uso de una redirección permanente (301) de todas las URL alternativas a la URL que desea, lo que permite a los motores de búsqueda juzgar cuál es la URL canónica.