J'aimerais compter les mots d'un fichier PDF sous OS X. L'inspecteur ne contient pas le nombre de mots.
Réponses
Trop de publicités?Utiliser l'outil GhostScript ps2ascii ,
$ ps2ascii MSWiM_2016.pdf | wc -w
*** Warning: composite font characters dumped without decoding.
8964
J'ai mis en place une petite application GUI "Compteur de mots PDF" qui renvoie le nombre de mots pour les fichiers PDF saisis. Il n'a pas d'avantage sur l'autre réponse (ps2ascii) en termes de nombre de mots retournés, mais il peut être une bonne solution pour les personnes qui n'aiment pas utiliser la ligne de commande.
Il existe un outil open source appelé PDFbox (d'Apache) qui possède quelques outils en ligne de commande que vous pouvez utiliser pour extraire le texte afin qu'il puisse être compté avec wc
. La commande (car il s'agit d'un jar Java) serait la suivante :
% java -jar pdfbox.jar ExtractText -console foobar.pdf | wc -w
-console
est nécessaire car il écrira automatiquement un fichier texte avec le même nom de base que la source (i.e. foobar.pdf
foobar.txt
)
Cette option est beaucoup plus petite que ce qui est inclus dans Ghostscript, mais elle nécessite l'installation d'un JRE (Java Run Time Environment). assez facile à faire .
Il est disponible via MacPorts ou directement à la source. Il s'agit d'un fichier Java jar, je vous suggère donc de le copier à /usr/local/bin/
et en créant un alias pour plus de commodité
alias pdfbox="java -jar /usr/local/bin/pdfbox.jar"
Mettez cet alias dans votre profil shell - ~/.bash_profile
ou ~/.zprofile
pour Bash ou Zsh respectivement. Vous pouvez ensuite lancer la commande comme suit :
% pdfbox ExtractText -console foobar.pdf | wc -w