35 votes

Rendre un PDF existant consultable (OCR) via la ligne de commande / script.

Je suis à la recherche d'un outil scriptable hors ligne qui rende un fichier PDF existant consultable par OCR, en remplaçant le fichier original non consultable par la version consultable, et qui puisse fonctionner sans surveillance.

Par exemple, www.pdfscannerapp.com - fait exactement ce dont j'ai besoin, mais c'est une interface graphique seulement - non scriptable.

Je sais qu'Evernote rend les fichiers PDF consultables, mais ils ne le sont que lorsqu'ils se trouvent dans Evernote.

Je ne cherche pas un OCR parfait, même un OCR modérément acceptable est bien, mais je préférerais un petit utilitaire plutôt qu'un progiciel encombrant.

(J'ai connaissance d'une question similaire, mais différente, sur AD : Recherche d'un logiciel pour numériser ou convertir en PDF consultable et signable - cependant, je n'ai pas besoin de signer ou de remplir des PDF, et mon exigence est que la solution soit scriptable)

EDIT :

1) Plusieurs utilitaires permettent d'extraire du texte structuré, mais pour être extrait, le texte doit être présent ; je fais principalement référence aux PDF qui sont des bitmaps enveloppés, comme c'est le cas des PDF simples générés par des scanners.

2) Je ne suis pas nécessairement à la recherche d'une solution gratuite, et je serais plus qu'heureux de payer pour un bon utilitaire qui fait juste ce dont j'ai besoin, mais je ne suis pas à la recherche d'applications encombrantes avec un million de fonctionnalités qui incluent une fonction OCR mais dont le coût ne justifie pas de les acheter juste pour la fonctionnalité OCR.

3) Comme indiqué ci-dessus, je ne cherche pas un ROC parfait, mais un ROC moyennement acceptable. Malheureusement, d'après mon expérience, tesseract est vraiment en dessous de ce seuil. Je définis comme "modérément acceptable" un OCR qui peut, par exemple, OCR une facture d'électricité de sorte qu'au moins le numéro de compte (numéro de client) est reconnu correctement.

EDIT : "scriptable" ou "automatable", c'est-à-dire capable d'être déclenché automatiquement et de fonctionner sans intervention humaine.

2 votes

...je ne sais pas si cela serait difficile à faire, mais l'OCR Tesseract est souvent mentionné. code.google.com/p/tesseract-ocr et l'OCR dans Unix.SE .

1 votes

Il y a une question similaire aquí La réponse correspond-elle à vos besoins ?

1 votes

Vous mentionnez l'OCR. Vos besoins incluent-ils la gestion des images dans les PDF, ou des fichiers PDF numérisés ? Pour les fichiers qui contiennent du texte sous forme de simple postscript, un convertisseur de PDF en texte comme "PDF2Text Pilot" pourrait vous convenir.

0voto

Sun Points 176

J'utilise Adobe acrobat pour faire de l'OCR par lots. Mon scanner recto-verso peut effectuer une reconnaissance optique de caractères après la numérisation, mais la technologie de reconnaissance optique de caractères d'Acrobat est plus précise à mon avis. Je pointe simplement vers le dossier qui n'a pas d'OCR, puis Acrobat réenregistre le PDF en tant que PDF consultable incluant une couche de texte. Si je voulais faire de l'OCR via la ligne de commande, je ne connais pas de moyen, mais je peux automatiser l'interface graphique en utilisant Autohotkey. Ce n'est pas aussi fiable ni aussi rapide que la ligne de commande, mais cela fait l'affaire après avoir configuré une action de flux de travail pour minimiser l'interaction avec l'interface graphique.

Pour Mac, apple script fait ce que Autohotkey fait sur le PC bien que je n'ai pas encore essayé sur mon Mac.

Auto hot key est livré avec un enregistreur, donc la plupart de l'écriture du script est un dîner pour vous avec un peu d'édition pour le raffinement et peut-être la mise en boucle si vous le souhaitez.

J'ai expérimenté l'OCRing d'images mais je n'ai pas encore automatisé complètement le processus à travers Acrobat. La ligne de commande est idéale, mais je n'ai pas trouvé de moteur d'OCR de qualité supérieure à celui d'acrobat, donc je m'en tiens à acrobat pour l'instant.

0voto

Charlton Points 1

Je suis tombée sur ça récemment : http://ocrkit.com/faq.html

Vous devez cependant payer après 14 jours

2 votes

Bienvenue à Ask Different ! Nous essayons de trouver les meilleures réponses et ces réponses fourniront des informations expliquant pourquoi elles sont les meilleures. Expliquez pourquoi vous pensez que le logiciel que vous recommandez est meilleur que les autres. En général, les réponses contenant uniquement des liens sont susceptibles d'être supprimées. Vous devez donc toujours veiller à ce que votre réponse contienne toutes les informations pertinentes. Voir Comment répondre sur la façon de fournir une réponse de qualité.

0voto

xilopaint Points 136

OCRKit dispose à la fois d'un support AppleScript et d'une CLI. De leur page d'aide :

AppleScript

Vous pouvez également script OCRKit pour l'intégrer dans votre flux de travail spécifique. Par exemple, traitez les fichiers entrants, via un dossier partagé, à partir d'un copieur MFP, etc. etc. et simplement dire à OCRKit d'ouvrir et donc de traiter ces fichiers par le biais de AppleScript :

tell application "OCRKit"
   -- the wonders of AppleScript POSIX path handling, ...
   open "Users:admin:Desktop:orderform.pdf"
   open POSIX path of "/Users/Admin/Desktop/orderform.pdf"
end tell 

Ligne de commande

Depuis la version 2.5 d'OCRKit, les scripts en ligne de commande directe sont supportés. Cela simplifie grandement l'utilisation d'OCRKit dans le traitement par lot, permet de définir plus d'options, et est également plus robuste et multiplateforme qu'AppleSCript. AppleSCript.

OCRKit.app/Contents/MacOS/OCRKit \ 
    --lang en | de | fr | es | ... \
    --format pdf | html | rtf | text \
    --no-progress \
    --output out-file in-file

Depuis la version 16.9 d'OCRKit, des options de ligne de commande supplémentaires sont prises en charge :

-r, --recursive directory

Recherche récursive de nouveaux fichiers dans le répertoire. Ignore les fichiers d'OCRKit, avec couche de texte ou graphiques vectoriels.

--pattern "regex"

Motif utilisé pour faire correspondre les noms de fichiers pendant les analyses récursives. La valeur par défaut est %.pdf$ La recommandation pour le TIFF est %.tiff?$

--log file

Écrire les informations et les statistiques du fichier journal pendant l'analyse récursive dans le fichier.

--password secret

Utilisez un mot de passe secret pour décrypter les fichiers PDF pendant le traitement par lots.

--test-run [ fast ]

Exécutez uniquement le traitement par lots en mode test pour tester les fichiers PDF ou pour obtenir le nombre de pages pour estimer le temps de traitement total. "rapide" va seulement vérifiera seulement la première page de chaque fichier, au lieu de passer par toutes les pages pour l'analyse des images et des vecteurs.

--tag name

Utilisez le nom de l'attribut étendu pour marquer l'état de traitement des fichiers pendant le traitement par lots. macos:OCRKit (%s) utilisera le système natif de MacOS Finder à la place, ou simplement macos:OCRKit sans compter l'État l'attribut state. L'ordre de l'attribut state sont : started , analyzed , processed et peut également être encrypted .

LesApples.com

LesApples est une communauté de Apple où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres utilisateurs d'appareils Apple, poser vos propres questions ou résoudre celles des autres.

Powered by:

X