Come faccio a scegliere il miglior software OCR?

Il software di riconoscimento ottico dei caratteri (OCR) è un software progettato per tradurre le immagini di testo in testo effettivo che un computer può leggere. In genere, viene utilizzato dopo che un’immagine è stata acquisita in un computer, sebbene possano essere utilizzate anche altre forme di input. Il software OCR funziona al meglio su testo che è già stato digitato, sia nei casi in cui una stampa originale è stata persa, sia nella scansione di fogli digitati su una macchina da scrivere. Tuttavia, un buon software potrebbe anche essere in grado di tradurre testo scritto a mano, sebbene il tasso di errore su questo tipo di conversione tenda ad essere molto più alto.

Il termine effettivo software OCR è un po’ fuorviante, poiché la maggior parte delle versioni moderne non utilizza il riconoscimento ottico dei caratteri, ma utilizza il riconoscimento digitale dei caratteri. Questo perché alcuni anni fa i campi si sono effettivamente uniti ed entrambi i campi hanno adottato il termine più attraente riconoscimento ottico dei caratteri. Il software OCR ha fatto grandi progressi negli ultimi anni, con programmi moderni sostanzialmente migliori dei loro predecessori nell’identificazione del testo.

In effetti, i primi software OCR richiedevano l’addestramento del programma su un font specifico prima che potesse essere inserito con precisione. Allo stesso modo, quando si inserisce la scrittura a mano, il programma dovrebbe essere addestrato, un processo che potrebbe richiedere molto tempo. Tuttavia, i metodi sono migliorati e ora i sistemi più intelligenti sono la norma. I metodi utilizzati sono ora relativamente statici, con solo un po’ di ricerca dedicata allo sviluppo di metodi completamente nuovi e la maggior parte delle ricerche a perfezionare le procedure esistenti per renderle sempre più accurate. Le prime versioni del software sono state utilizzate in una vasta gamma di applicazioni, con le principali aziende che le utilizzavano per leggere le impronte delle carte di credito negli anni ‘1950 e il servizio postale degli Stati Uniti che le utilizzava per smistare la posta dalla metà degli anni ‘1960.

Dieci anni fa, la scelta di un software OCR era difficile, poiché molti programmi erano piuttosto scadenti in determinate attività e ragionevolmente buoni in altri. In questi giorni, però, il campo è stato largamente livellato. I tassi di accuratezza in qualsiasi buon software per la traduzione di scritti latini che sono stati digitati sono superiori al 99%. Quando si tratta di inserire la scrittura a mano, tuttavia, o caratteri tipografici più complessi, il software OCR ha ancora una gamma relativamente alta.

Anche il costo del software OCR varia ampiamente, spesso in relazione ai tassi di precisione che vanta. È possibile trovare una discreta quantità di software libero adatto per l’immissione di materiale stampato e alcuni che sono relativamente efficaci nel rilevare la scrittura a mano, specialmente con un po’ di addestramento. Le suite software più costose, come la suite OmniPage, che costa circa $ 100 dollari USA (USD) per la versione home e circa $ 450 USD per la versione professionale, vantano una serie impressionante di funzionalità e percentuali di successo generalmente più elevate.
Sfortunatamente, non esiste ancora un software OCR perfetto, quindi la scelta di un programma da acquistare può ancora essere in gran parte un processo frustrante. Anche i migliori programmi avranno probabilmente difficoltà con la scrittura a mano e gli errori si insinueranno inevitabilmente, anche a bassi livelli. Per lo più, la scelta di un programma da acquistare si riduce a funzionalità extra: supporto multilingue, integrazione di scansione e conversione con un solo tocco, conversione automatica di PDF e riconoscimento di intere parole in discipline specializzate come i campi legali e medici.