Je suis à la recherche d'un outil scriptable hors ligne qui rende un fichier PDF existant consultable par OCR, en remplaçant le fichier original non consultable par la version consultable, et qui puisse fonctionner sans surveillance.
Par exemple, www.pdfscannerapp.com - fait exactement ce dont j'ai besoin, mais c'est une interface graphique seulement - non scriptable.
Je sais qu'Evernote rend les fichiers PDF consultables, mais ils ne le sont que lorsqu'ils se trouvent dans Evernote.
Je ne cherche pas un OCR parfait, même un OCR modérément acceptable est bien, mais je préférerais un petit utilitaire plutôt qu'un progiciel encombrant.
(J'ai connaissance d'une question similaire, mais différente, sur AD : Recherche d'un logiciel pour numériser ou convertir en PDF consultable et signable - cependant, je n'ai pas besoin de signer ou de remplir des PDF, et mon exigence est que la solution soit scriptable)
EDIT :
1) Plusieurs utilitaires permettent d'extraire du texte structuré, mais pour être extrait, le texte doit être présent ; je fais principalement référence aux PDF qui sont des bitmaps enveloppés, comme c'est le cas des PDF simples générés par des scanners.
2) Je ne suis pas nécessairement à la recherche d'une solution gratuite, et je serais plus qu'heureux de payer pour un bon utilitaire qui fait juste ce dont j'ai besoin, mais je ne suis pas à la recherche d'applications encombrantes avec un million de fonctionnalités qui incluent une fonction OCR mais dont le coût ne justifie pas de les acheter juste pour la fonctionnalité OCR.
3) Comme indiqué ci-dessus, je ne cherche pas un ROC parfait, mais un ROC moyennement acceptable. Malheureusement, d'après mon expérience, tesseract est vraiment en dessous de ce seuil. Je définis comme "modérément acceptable" un OCR qui peut, par exemple, OCR une facture d'électricité de sorte qu'au moins le numéro de compte (numéro de client) est reconnu correctement.
EDIT : "scriptable" ou "automatable", c'est-à-dire capable d'être déclenché automatiquement et de fonctionner sans intervention humaine.
2 votes
...je ne sais pas si cela serait difficile à faire, mais l'OCR Tesseract est souvent mentionné. code.google.com/p/tesseract-ocr et l'OCR dans Unix.SE .
1 votes
Il y a une question similaire aquí La réponse correspond-elle à vos besoins ?
1 votes
Vous mentionnez l'OCR. Vos besoins incluent-ils la gestion des images dans les PDF, ou des fichiers PDF numérisés ? Pour les fichiers qui contiennent du texte sous forme de simple postscript, un convertisseur de PDF en texte comme "PDF2Text Pilot" pourrait vous convenir.
0 votes
@patrix Je recherchais un utilitaire plus petit, pas forcément gratuit mais dans une autre gamme de prix. Néanmoins, c'est une solution possible, merci.
0 votes
@TimothyButler Malheureusement, j'ai affaire à des PDF (images) numérisés. Mais, bon conseil, merci.
0 votes
@magma Pouvez-vous ajouter vos critères étendus à la question ?
0 votes
L'OCR est un domaine assez vaste : il existe de grandes différences de qualité entre les logiciels. Lorsque vous ajoutez le support linguistique, par exemple le support de différentes langues, vous pouvez obtenir une détection de meilleure qualité. Si vous êtes un étudiant, Adobe Acrobat Pro de Creative Suite coûte environ 300EUR sinon seul environ 200EUR. J'aimerais qu'il y ait un aperçu comparant la détection OCR avec différents types de documents : document mathématique, langue différente etc il peut y avoir de grandes différences de qualité. Il pourrait être utile de spécifier la langue. Je réécrirais également la question, maintenant trop étendue - essayez de la rendre plus simple.
0 votes
Au fait - j'ai jeté un coup d'œil à ceci : malcolmhardie.com/ocr/index.html qui utilise Tesseract et est openSource - mais quand j'ai essayé d'OCRer un PNG, plutôt qu'un TIFF les résultats étaient très pauvres. C'est dommage, car il aurait pu être converti en ce que vous voulez sans trop de travail.
0 votes
@diggory malheureusement mon expérience avec tesseract a été très décevante aussi.
0 votes
@patrix J'ai clarifié les exigences. La question que vous avez liée contient une référence à un article du blog de Marco Arment avec des informations intéressantes. Je suis actuellement en train d'expérimenter PDFPen ; c'est encore un peu excessif, mais plus proche.
0 votes
Il y a aussi < jocr.sourceforge.net > et < gnu.org/software/ocrad > si vous ne les avez pas encore rencontrés.
0 votes
Depuis aujourd'hui, j'utilise l'application Scanbot sur mon iPhone, avec OCR automatique et téléchargement automatique sur Dropbox. C'est parfait pour mon flux de travail. Notez que la fonction d'OCR est payante dans Scanbot.