El software de reconocimiento óptico de caracteres (OCR) es un software diseñado para traducir imágenes de texto en texto real que una computadora puede leer. Generalmente, se usa después de que una imagen se ha escaneado en una computadora, aunque también se pueden usar otras formas de entrada. El software OCR funciona mejor con texto que ya se ha escrito, ya sea en los casos en los que se ha perdido una copia impresa original o al escanear hojas mecanografiadas en una máquina de escribir. Sin embargo, un buen software también puede traducir texto escrito a mano, aunque la tasa de error en este tipo de conversión tiende a ser mucho mayor.
El término actual software OCR es un poco engañoso, ya que la mayoría de las versiones modernas no utilizan el reconocimiento óptico de caracteres, sino que utilizan el reconocimiento digital de caracteres. Esto se debe a que hace algunos años los campos se fusionaron efectivamente y ambos campos adoptaron el término más atractivo reconocimiento óptico de caracteres. El software OCR ha avanzado mucho en los últimos años, y los programas modernos son sustancialmente mejores que sus predecesores en la identificación de texto.
De hecho, los primeros programas de OCR requerían entrenar al programa en una fuente específica antes de poder ingresarla con precisión. De manera similar, al ingresar la escritura a mano, el programa tendría que ser entrenado, un proceso que podría consumir mucho tiempo. Sin embargo, los métodos han mejorado y los sistemas más inteligentes son ahora la norma. Los métodos utilizados son ahora relativamente estáticos, con solo un poco de investigación para desarrollar métodos completamente nuevos, y la mayoría de las investigaciones para refinar los procedimientos existentes para hacerlos cada vez más precisos. Las primeras versiones de software se utilizaron en una amplia gama de aplicaciones; las grandes corporaciones las utilizaron para leer las impresiones de las tarjetas de crédito en la década de 1950 y el Servicio Postal de los Estados Unidos las utilizó para clasificar el correo desde mediados de la década de 1960.
Hace diez años, elegir un software de OCR era difícil, ya que muchos programas eran bastante malos en ciertas tareas y razonablemente buenos en otras. En estos días, sin embargo, el campo se ha nivelado en gran medida. Las tasas de precisión en cualquier buen software para traducir alfabetos latinos que se han mecanografiado están por encima del 99%. Sin embargo, cuando se trata de ingresar escritura a mano o tipos de letra más intrincados, el software OCR todavía tiene un rango relativamente alto.
El costo del software OCR también fluctúa ampliamente, a menudo en relación con las tasas de precisión que presume. Se puede encontrar una buena cantidad de software gratuito que es adecuado para ingresar material impreso, y se puede encontrar alguno que sea relativamente bueno para detectar la escritura a mano, especialmente con algo de capacitación. Las suites de software más caras, como la suite OmniPage, que cuesta alrededor de $ 100 dólares estadounidenses (USD) para la versión doméstica y alrededor de $ 450 USD para la versión profesional, cuentan con impresionantes conjuntos de funciones y, en general, tasas de éxito más altas.
Desafortunadamente, todavía no existe el software OCR perfecto, por lo que elegir un programa para comprar puede ser en gran medida un proceso frustrante. Incluso los mejores programas probablemente tendrán dificultades con la escritura a mano, e inevitablemente se producirán errores, incluso en niveles bajos. Principalmente, elegir un programa para comprar se reduce a características adicionales: soporte multilingüe, integración de conversión y escaneo con un solo toque, conversión automática de PDF y reconocimiento de palabras completas en disciplinas especializadas como los campos legal y médico.