12 votes

Comment convertir un fichier pdf en fichier texte ?

Existe-t-il un moyen simple d'extraire du texte brut d'un fichier PDF ?

Sur les systèmes *nix, j'avais l'habitude d'avoir une commande ps2ascii qui ferait l'affaire, mais il semble que cette commande ne soit pas installée par défaut sur mon Mac.

Quel serait le moyen le plus simple d'extraire du texte d'un fichier pdf ou, alternativement, comment obtenir ps2ascii sur mon système ?

10voto

Mike Polen Points 3173

ps2ascii fait partie de Ghostscript qui peut être installé sur Mac OS X (et peut l'être déjà par défaut depuis l'usine).

1 votes

Ghostscript n'est pas inclus dans OSX. Cependant, l'une des méthodes énumérées ci-dessous permet de l'installer sans problème.

0 votes

Je ne sais pas si j'en fais trop, mais pourriez-vous me donner des détails sur ce que je dois installer et comment ? (Avis de non-responsabilité : je suis un utilisateur assez expérimenté et j'ai déjà réussi à l'installer, mais au stade bêta de ce site, j'aimerais voir quel niveau de détail et d'information nous devons attendre des personnes qui donnent des réponses).

0 votes

Je pense qu'une telle question ne relève pas du champ d'action de SE, puisqu'il existe déjà des documents très détaillés sur leur site. Une question plus appropriée dans ce cas, selon moi, serait de poster une question relative à l'installation après avoir essayé de l'installer, l'installation échoue après des tentatives répétées, et la recherche sur le web ne donne que peu ou pas de réponses.

6voto

ghoppe Points 7682

Adobe Reader a une option "Enregistrer en tant que texte " dans le menu Fichier. Méthode la plus simple.

0 votes

Merci. C'est de loin la solution la plus simple, elle a été capable de gérer mon énorme fichier sans aucun problème et a produit une sortie texte raisonnablement propre et utilisable.

2 votes

Oui, c'est le plus facile, mais pas toujours le plus propre. La v7 est la meilleure, mais les choses se gâtent avant et après. Une partie de mon travail consiste à fournir des versions en texte clair de manuels universitaires à des étudiants handicapés. J'ai beaucoup d'expérience dans ce domaine, et c'est pourquoi je recommande Ghostscript si vous cherchez une option gratuite.

1 votes

@ghoppe merci pour cette option facile mais elle n'est pas disponible dans la version mac d'adobe,comment la faire dans adobe via Adobe reader ?

4voto

benwiggy Points 21125

Le script Python suivant sortira le texte d'un document PDF vers un fichier .txt. (Remarque : il n'y a aucune garantie que le texte soit nécessairement dans un ordre "logique" lisible par l'homme, en raison de la manière dont les données sont conservées dans le format PDF).

Le script créera des fichiers texte pour tous les fichiers PDF qui lui sont fournis comme arguments sur la ligne de commande (par ex. pdf2txt.py myPDF.pdf ), ou vous pouvez utiliser l'action "Exécuter le shell script" d'Automator, en définissant le type de shell comme suit Python y Passer l'entrée à "Comme arguments".

#!/usr/bin/python
# coding: utf-8

import os, sys
from Quartz import PDFDocument
from CoreFoundation import (NSURL, NSString)
NSUTF8StringEncoding = 4

def pdf2txt():
    for filename in sys.argv[1:]:   
        inputfile =filename.decode('utf-8')
        shortName = os.path.splitext(filename)[0]
        outputfile = shortName+" text.txt"
        pdfURL = NSURL.fileURLWithPath_(inputfile)
        pdfDoc = PDFDocument.alloc().initWithURL_(pdfURL)
        if pdfDoc :
            pdfString = NSString.stringWithString_(pdfDoc.string())
            pdfString.writeToFile_atomically_encoding_error_(outputfile, True, NSUTF8StringEncoding, None)

if __name__ == "__main__":
   pdf2txt()

0 votes

Pour rappel : ce besoin pip install pyobjc .

0 votes

@Itachi Non, il fonctionne sur tous les systèmes d'exploitation MacOS, de Snow Leopard à Catalina.

0 votes

Je suis un peu confus, alors où est-ce que Quartz y CoreFoundation venir ? Est-ce un paquetage intégré de Python pour MacOS ?

2voto

UnkwnTech Points 21942

Je ne connais pas d'OS X indigène qui fait cela, cependant, vous pouvez installer la plupart des commandes unix/linux avec l'une de ces trois méthodes :

Homebew : Homebrew est le moyen le plus simple et le plus flexible d'installer les outils UNIX qu'Apple n'a pas inclus avec OS X.

Fink : Le projet Fink veut apporter tout l'univers des logiciels libres Unix à Darwin et Mac OS X.

Macports : Le projet MacPorts est une initiative de la communauté des logiciels libres visant à concevoir un système facile à utiliser pour compiler, installer et mettre à jour des logiciels libres basés sur la ligne de commande, X11 ou Aqua sur le système d'exploitation Mac OS X.

Homebrew est le "petit nouveau" et promet de résoudre les "problèmes et limitations" des deux autres (quels que soient ces problèmes). Je vous suggère de les examiner tous et d'utiliser celui que vous considérez comme le plus flexible/simple pour vos besoins.

Il y a, cependant, une application (Payware) qui utilisé pour le faire (je ne sais pas s'il le fait encore). Je parle de DEVONthink et vous pouvez essayer une démo pendant quelques jours.

mise à jour : Selon ce poste vous pouvez installer DevonThink (version d'essai) et extraire le fichier binaire 'pdftotext'. qui est gratuit, bien sûr " [sic] de la liasse.

0 votes

Merci pour les indications, mais lequel de ces éléments contiendrait réellement ps2ascii ? Et lequel dois-je préférer ?

0 votes

MacPorts gère Ghostscript 9 (la dernière version).

0 votes

L'utilitaire natif d'OS X est l'application Adobe Reader, qui dispose de la fonction Enregistrer en tant que texte.

2voto

Sam McAfee Points 4615

Si l'utilisation d'une interface graphique ne vous dérange pas, vous pouvez sélectionner du texte dans un PDF ouvert avec Preview.app.

0 votes

Merci, cela semble fonctionner pour les cas simples. Mais j'ai un très gros document (plus de 1000 pages) et le système est presque en panne rien qu'en essayant de sélectionner tout !

0 votes

Une solution décalée liée à la réponse ci-dessus est qu'Acrobat 7 a réalisé des extractions de texte étonnamment propres (mais il est préférable d'utiliser un utilitaire approprié comme ghostscript pour quelque chose d'aussi grand).

LesApples.com

LesApples est une communauté de Apple où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres utilisateurs d'appareils Apple, poser vos propres questions ou résoudre celles des autres.

Powered by:

X