El reconocimiento óptico de caracteres (OCR) es un proceso de conversión de materiales impresos en texto o archivos de procesamiento de texto que se pueden editar y almacenar fácilmente. La tecnología ha permitido que dichos materiales se almacenen utilizando mucho menos espacio de almacenamiento que los materiales impresos. La tecnología OCR ha tenido un gran impacto en la forma en que se almacena, comparte y edita la información. Antes del reconocimiento óptico de caracteres, si alguien quisiera convertir un libro en un archivo de procesamiento de texto, cada página tendría que escribirse palabra por palabra.
La tecnología OCR requiere tanto hardware como software. Además, los sistemas OCR sofisticados requieren una placa de circuito adicional en la propia computadora para completar el proceso. Un escáner óptico escanea el texto de una página y luego divide las fuentes en una serie de puntos llamados mapa de bits. El software puede leer las fuentes más comunes y distinguir dónde comienzan y terminan las líneas. Este mapa de bits luego se traduce a texto de computadora.
Si bien el reconocimiento óptico de caracteres ha logrado grandes avances en los últimos años, todavía no siempre funciona bien para reconocer la escritura a mano o las fuentes que se parecen a la escritura a mano. Hay sistemas dentro de la industria bancaria que utilizan tecnología OCR para intentar leer los montos de los cheques escritos a mano, de acuerdo con la capacidad de la computadora para leer los números de cuenta y de ruta.
Para dar una idea del poder de OCR, puede ser útil echar un vistazo a un ejemplo del mundo real. Imagine un departamento de policía que tiene todos sus antecedentes penales almacenados en grandes archivadores. Aunque escanear millones de páginas sería una tarea costosa y que consumiría mucho tiempo, los beneficios son enormes.
Una vez que el sistema OCR ha convertido las páginas en texto legible por computadora, un detective, por ejemplo, podría buscar en todo el historial en unos pocos segundos. Encontrar manualmente un registro en particular puede no ser demasiado difícil, pero imagine a un detective tratando de buscar todos los delitos cometidos en una determinada intersección entre las 8:00 y las 8:30. Este ejemplo solo rasca la superficie del poder del texto de búsqueda, y es solo una de las razones por las que muchas empresas e instituciones están gastando millones de dólares en OCR para sus datos heredados.