XL 2019 PDF vers Excel

  • Initiateur de la discussion Initiateur de la discussion Amilo
  • Date de début Date de début

Boostez vos compétences Excel avec notre communauté !

Rejoignez Excel Downloads, le rendez-vous des passionnés où l'entraide fait la force. Apprenez, échangez, progressez – et tout ça gratuitement ! 👉 Inscrivez-vous maintenant !

Amilo

XLDnaute Accro
Bonjour le forum,

J'ai un fichier pdf de plus 300 pages obtenu après numérisation via l'imprimante.
Chaque page du fichier pdf correspond à une facture classique comportant une seule page
Il y a donc plus de 300 factures scannées dans le même pdf.

Je souhaiterais exporter vers Excel, certaines informations seulement,
Celles-ci sont présentées sur la facture sous forme d'un tableau de 6 colonnes, avec leur titres et une ligne de valeurs correspondantes.
(Je rentre un peu dans les détails et désolé si toutes ces précisions ne sont pas forcément nécessaires)

Sinon, j'ai consulté notamment 2 liens sur ce forum : Lien1 et Llien2 mais sans succès.
Par contre, je n'ai pas souhaité pour l'instant installer et utiliser l'application PDFtoText

J'ai testé sinon :
- la solution #2 du Lien1 pour exporter le pdf en texte mais cela me génère d'emblée un fichier nommé "Essai.txt" qui est vierge.
- une solution avec Power BI mais là non plus, il ne trouve aucune données.
- un export du pdf vers Excel à l'aide de Adobe Acrobat puis le chargement dans un autre fichier Excel via Power query. Le résultat n'est pas trop mal mais certaines pages ne sont visiblement pas passées dans Excel et il manque parfois des informations du tableau

Pour information :
- je possède Adobe Acrobat XI Pro,
- les factures ont été scannées au format .pdf par défaut mais l'imprimante permet une multitude d'autres versions de .pdf
- j'ai Excel 2019 Pro Plus (64 bits) et 2016 Pro Plus (32bits)

Avez-vous svp d'autres propositions ou solutions que je pourrais tester ?

Merci d'avance pour votre aide

Cordialement
 
Dernière édition:
Salut,
VB:
Par contre, je n'ai pas souhaité pour l'instant installer et utiliser l'application PDFtoText
eh bien il ne reste plus qu'à le faire !
Un échantillon de ce pdf récalcitrant serait intéressant à voir.
 
Dernière édition:
Bonjour le fil

[Pour infos]
J'ai un fichier pdf de plus 300 pages obtenu après numérisation via l'imprimante.
Moi aussi, j'en bouffe du PDF à longueur de journée
Avec parfois des PDF de 800 pages et plus.
Et sur l'imprimante, j'ai une option: PDF requêtable
(c'est à dire que quand je l'ouvre dans le Reader, je peux faire une recherche textuelle)
Si par malheur, un collègue change le paramètre, je me retrouve avec un PDF scanné comme une image.
Ce qui fait qu'il n'est plus requêtable et que si je fais Enregistrer au format texte, j'obtiens comme toi un fichier vide.
 
Bonsoir kiki29, staple1600,

Merci pour vos réponses,

@kiki29 , je testerai bien le logiciel avec une version portable (s'il existe), s'il est fiable ou sécurisé au niveau données confidentielles.
Je ne pourrai pas l'installer au travail en tout cas.
Sinon, pour un échantillon, ce ne sera malheureusement pas possible en raison de la confidentialité.

@Staple1600 , merci pour cette précision,
j'ai détaillé la manière dont j'obtenais le pdf car j'avais effectivement un doute sur le format par défaut,
Comme vous l'indiquez celui-ci est semblable à une image et donc probablement plus récalcitrant aux transformations.

Je ferai un test lundi prochain en sélectionnant une autre version de .pdf ou la bonne option.
Sinon Adobe Acrobat permet de transformer un pdf en document OCR mais je ne vais pas l'appliquer à plus de 300 pages.
Je vais tester déjà à l'imprimante, je pense que c'est une bonne piste.

Merci encore à vous

Bonne nuit
 
Dernière édition:
Bonsoir le forum, kiki29, Staple1600,

J'ai scanné mes factures aujourd'hui en sélectionnant l'option "PDF/A permettant les recherches (ROC)"
mais il y avait également notamment les choix suivants :
- "PDF pour recherches", "XPS", "Texte (ROC)", "Texte-unicod (ROC)", "RTF (ROC)", "CSV (ROC)", "HTML (ROC)", "PDF/A (archivable)".....etc mais les autres concernent les images en "JPEG" ou "TIFF"

Mais je me pose la question, s'il n'y avait pas un meilleur choix que celui que j'ai pris !!
Je ne voulais pas commencer à numériser dans chacun des formats.

Sinon pour le résultat avec mon choix, j'arrive à exploiter le fichier pdf avec Power BI et à générer un fichier texte complet avec le code VBA dans le 1er lien ci-dessous posté par kiki29

Par contre, dans le 2ème lien permettant la récupération du texte du pdf dans une feuille Excel, j'ai une erreur "Variable non définie"pour la ligne : ShTest

J'ai ajouté à tout hasard un : "DIM ShTest As Object" dans la déclaration mais sans succès.


Sauvegarder un fichier PDF au format TEXTE via VBA Excel
Récupérer le texte d'un fichier PDF dans une feuille Excel

Cordialement
 
Re,

Merci Staple1600 pour votre retour, en effet cela a changé la donne et merci encore, je vais donc rester sur ce format,

L'utilisation de Power BI était un essai perso que j'avais évoqué dans mon 1er message et qui ne fonctionnait pas initialement.
Cela fonctionne désormais avec le nouveau format .pdf, j'arrive donc à récupérer le texte mais j'ai pas mal de boulot pour son retraitement et le réorganiser en code M comme dans Power query.

Cordialement
 
Re,

Vous avez raison, la phrase est mal écrite, on penserait que les 2 tests sont liés alors que ce sont 2 essais distincts sans aucun lien 😉

Edit : pour résumer, Power BI ainsi que le code VBA à kiki29 reconnaissent désormais le .pdf avec ce nouveau format.

Cordialement
 
- Navigue sans publicité
- Accède à Cléa, notre assistante IA experte Excel... et pas que...
- Profite de fonctionnalités exclusives
Ton soutien permet à Excel Downloads de rester 100% gratuit et de continuer à rassembler les passionnés d'Excel.
Je deviens Supporter XLD

Discussions similaires

Réponses
3
Affichages
819
Réponses
1
Affichages
324
  • Question Question
Réponses
1
Affichages
578
Réponses
2
Affichages
717
Retour