Ogni Giorno un Software Gratis

giovedì 23 luglio 2009

OCR: Programmi free per il riconoscimento ottico dei caratteri



Buon givedi a tutti ,i programmi che vi illustrero' oggi ,sono programmi OCR,ossia I programmi OCR (riconoscimento ottico dei caratteri) sono quei programmi che consentono di acquisire un'immagine (da scanner, da fotocamera, da una schermata grafica del pc, da un file PDF, ecc.) e di convertirla automaticamente in un formato testuale (per esempio .doc di Word, o rtf, o html, ecc.) su cui possono essere eseguite delle modiche, al pari di qualsiasi testo.


FreeOCR (Tesseract)
FreeOCR è la versione gratuita e compilata per Windows di Tesseract (programma OCR opensource). Si può utilizzare gratuitamente anche per scopi commerciali.

Per nostra fortuna, dopo essere stato acquisito da Google continua ad essere aggiornato con una certa regolarità (e a restare open source), ma soprattutto è disponibile anche la lingua italiana, che va scaricata da qui (occorre scaricare il file Italian language data for Tesseract, scompattarlo con un programma di archiviazione, copiare e incollare i file presenti nella cartella tesseract/tessdata di FreeOCR24. A questo punto basterà, nell'interfaccia grafica di FreeOCR24, selezionare la lingua italiana vicino a OCR Language).

MoreData
Basato sul motore di Tesseract, consente di estrarre il testo contenuto in immagini. L'utilizzo è molto semplice, basta caricare un'immagine contenente del testo (per esempio proveniente da un documento PDF).

Per utilizzarlo, prima occorre selezionare la lingua (ITA), poi Choose single file, poi, caricato il documento, Update Grid/view, quindi cliccare due volte sul nome del file poco sotto, e apparirà il testo presente nell'immagine.

MoreData non richiede installazione, ed è anche in italiano. Al momento è ancora alle prime versioni, ma già funziona bene. Alla fine si può selezionare il testo che è stato riconosciuto e incollare in altri programmi.

Purtroppo al momento manca un tasto 'Elimina', che consentirebbe di cancellare i testi già analizzati senza dover andare per forza nella cartella del programma ad eliminarli gradualmente.
download

TopOCR
E' un programma OCR specifico per le fotocamere digitali (cioé è impostato soprattutto per riconoscere i caratteri dalle immagini prese da una fotocamera), tuttavia funziona anche con gli scanner, e con le immagini che possiamo già avere sul computer (in formato bmp, gif, jpg e tiff). Purtroppo non viene accettato il formato PDF (a meno di convertire i documenti PDF in immagini).
Tra le varie lingue, è compreso (per fortuna) anche l'italiano.

Il funzionamento è molto elementare: scordatevi di convertire qualche pagina lasciandone inalterato l'aspetto grafico (layout). Tutto il testo verrà convertito in un'unica colonna. Inoltre alcune parole vengono riconosciute male, e occorre controllare e correggere il testo convertito con molta cura.
download
ingugodiperso

Ti e' piaciuto il nostro post? Allora cosa aspetti:

ISCRIVITI AL NOSTRO FEED!

Utilizzando i Feed puoi seguire gli aggiornamenti del nostro Blog