0 votes

Changement de format du texte

Je suis en train de regarder des fichiers Word édités par un ancien assistant. Si l'option "Afficher tous les caractères non imprimés" est désactivée, tout semble correct, à l'exception de quelques changements de police étranges. En activant l'option "Afficher tous les caractères non imprimés", on obtient un formatage qui donne l'impression d'être correct, mais ce n'est clairement pas le formatage tapé par une personne. Un exemple - Le document original avait une numérotation des lignes toutes les cinq lignes. Cette version semble avoir une numérotation des lignes, mais ce ne sont que des caractères. Il y a un saut de section juste avant chaque 5e ligne. Pour faire une modification de taille modeste, j'exporte tout le document en tant que texte et je recommence en mettant en place le formatage. Savez-vous comment cela a pu se produire ? Cela pourrait-il provenir de l'OCR d'un PDF ? Existe-t-il un moyen magique de corriger ce problème ?

1voto

Vzzdak Points 1186

Oui, ce type de formatage ressemble à ce qui peut se produire lorsque votre logiciel d'OCR est configuré pour interpréter ce qu'il a numérisé, alors qu'en fait vous n'avez besoin que du texte brut pour appliquer des styles.

Il y a longtemps, sur un système Windows, nous avons dû récupérer un document électronique à partir de la seule copie imprimée qui nous restait. Le logiciel disposait d'une fonction de marquage, qui permettait :

  1. Scanner la page et vous montrer l'aperçu
  2. vous permettre de dessiner des marques rectangulaires sur les parties qui vous intéressent (c'était un outil pratique pour ignorer les fragments de scan)
  3. Produire des champs de texte qui contiennent le texte scanné
  4. Fournir un bouton qui copierait le texte dans le presse-papiers.

En ce qui concerne la copie dans le presse-papiers, si vous cliquez sur le bouton, une interprétation a lieu qui introduit un formatage acceptable, mais vous n'avez plus de texte brut.

Cependant, à l'étape (3), si vous avez sélectionné le texte dans le champ de paragraphe par glisser-déposer et manuellement copié dans le presse-papiers, on obtenait alors du texte brut, pour lequel il était plus facile d'attribuer des styles.

En ce qui concerne les logiciels Mac, essayez une démo de la dernière version d'Adobe Acrobat, et voyez s'il peut faire un travail décent d'OCR sur une capture d'écran/un scan de ces fichiers Word.

LesApples.com

LesApples est une communauté de Apple où vous pouvez résoudre vos problèmes et vos doutes. Vous pouvez consulter les questions des autres utilisateurs d'appareils Apple, poser vos propres questions ou résoudre celles des autres.

Powered by:

X