Power Query Recherche V d'une donnée dans des milliers de PDF via power Query ou autre ?

jojolatribuche

XLDnaute Junior
Bonjour,

Je fais fasse à un dilem..
Soit j'engage un(e) étudiant(e) pour ouvrir 1 par 1 les fichiers pdf (plus de 7000) soit je trouve une solution informatique à mon problème.
Je m'explique dans le cadre d'un audite sécurité on me demande de catégoriser les produits chimique informatiquement selon leur classification de danger.
Chose qui n'a jamais était faite et pour lequel le faire manuellement va demander un temps certain à l'étudiant(e).
Ma question est la suivante est-il possible de faire une recherche V (voir fichier excel en annexe) des différents codes dans une série de PDF.
Le but serai que ca cherche par exemple le H200 et si il le trouve mette une crois pour le nom du fichier dans la colonne H200 etc.
Ce qui est complexe c'est que chaque PDF est différent selon le fournisseur seule certitude c'est que dans 90% des cas l'information HXXX se trouve dans les fiches..
Je vous mets en annexes 3 exemples de fiches.

A savoir que les fichiers PDF sont tous dans le même répertoire mais avec des non différents mais logiques.
Exemple de nomenclature
SxxxxxxFjjmmaa.pdf
SxxxxxxNjjmmaa.pdf
SxxxxxxF.pdf
SxxxxxxN.pdf

Donc ma question quelqu'un d'assez callez ou qui aurai une piste pour que je puisse automatiser cette tâche? et si oui comment ? en power query ou autre?
D'abord est-ce possible surtout?

merci d'avance à ceux qui me répondrons voir même me sauver :)
 

Pièces jointes

  • S100074F200522.pdf
    279 KB · Affichages: 10
  • S666701N260719.pdf
    208.4 KB · Affichages: 10
  • S7010064N.pdf
    128.4 KB · Affichages: 9
  • Code sécurité.xlsx
    12.7 KB · Affichages: 5

Deadpool_CC

XLDnaute Accro
Bonjour,

dans un premier temps une rechercheV va 'taper' uniquement des plages excel ... donc il faut plutôt vous orienter vers du VBA
des bibliothèques permettent de "manipuler" les PDF mais je les connais pas assez bien pour vous orienter

Mais vous devriez commencer par regarder ce point avec les XLDnautes pour savoir si déjà une recherche textuelle dans un pdf est faisable (on parle bien de pdf "normaux et pas des pdf ou des factures aurait été scannées (sous forme d'image).
ensuite à vous de trouver une logique de recherche car tous vos pdf semblent avoir une présentation différente, dans des langues différentes.
après ces questions ... si faisales, il sea simple de parcourir un répertoire pour y traiter toutes les PDF.

je laisse les "collègues" qui ont déjà manipuler du PDF vous répondre sur la partie "recherche"

bon courage
Ps : il ne serait pas plus simple de trouver une référence de tous les produits sur internet de manière à juste en extraire ceux que vous utiliser ? j'imagine que les fabriquant qui catégorise leur produit et font ces fiches de description se réfère à une "norme" ... il serait plus facile de trouver la norme et se baser dessus ... non ?
 
Dernière édition:

jojolatribuche

XLDnaute Junior
Bonjour,

dans un premier temps une rechercheV va 'taper' uniquement des plages excel ... donc il faut plutôt vous orienter vers du VBA
des bibliothèques permettent de "manipuler" les PDF mais je les connais pas assez bien pour vous orienter

Mais vous devriez commencer par regarder ce point avec les XLDnautes pour savoir si déjà une recherche textuelle dans un pdf est faisable (on parle bien de pdf "normaux et pas des pdf ou des factures aurait été scannées (sous forme d'image).
ensuite à vous de trouver une logique de recherche car tous vos pdf semble avoir une présentation différente, dans des langues différentes.
après ces questions ... si faisales, il sea simple de parcourir un répertoire pour y traiter toutes les PDF.

je laisse les "collègues" qui ont déjà manipuler du PDF vous répondre sur la partie "recherche"

bon courage
Ps : il ne serait pas plus simple de trouver une référence de tous les produits sur internet de manière à juste en extraire ceux que vous utiliser ? j'imagine que les fabriquant qui catégorise leur produit et font ces fiches de description se réfère à une "norme" ... il serait plus facile de trouver la norme et se baser dessus ... non ?
Bonjour,
On parle bien de vrai pdf pas de scan..
Le soucis est que 7000 références chez plus de 300 fournisseurs la demande et le suivit serai aussi fastidieux à réaliser et je n'ai aucune garantie que l'information sera données tels quel ou me dirons comme certain l'on déjà fait comprendre (l'information se trouve dans les fiches)...
D'ou ma recherche d'une solution.. maintenant je sais pas si c'est la bonne ou si c'est faisable (enfin j'espère quand même)...
 

chris

XLDnaute Barbatruc
Bonjour
J'ai testé PowerQuery sur le fichier S100074F200522
La structure est libre dont impossible de repérer le même alignement d'une page à l'autre
En page 1 le code est suivi de : mais ce n'est pas le cas en page 2 donc pas de repère pour trouver le code...
 

Deadpool_CC

XLDnaute Accro
Et en plus au delà des "Hxxx" à retrouver, il faut ensuite savoir récupérer le nom du produit afin d'en faire une BDD Produit <-> Hxxx
et je sais même pas si des produits qui serait identique d'un fournisseur à l'autre ne porte pas des noms différents pour cause de marque déposé ... lol
la demande semble plutot ressembler à un vrai projet informatique plutôt qu'une simple aide qu'on pourrait apporter sur un forum ... lol
 

kiki29

XLDnaute Barbatruc
Salut, avec Pdf2Txt_05_Fichiers.xls et donc XPDF 3.04, j'obtiens ceci , restera à écrire la moulinette pour n'extraire que les infos utiles ( c'est loin d'être une sinécure )
voir le doc sur PdftoText.txt pour les options disponibles : -Layout,-Table etc.

Avec Pdf2Txt_Clipboard_05 et XPDF 3.04 cela semble également fonctionner avec les mêmes restrictions que ci-dessus

Les résultats du bidouillage sur fichier français donne ceci.
 

Pièces jointes

  • Extraction.png
    Extraction.png
    53.2 KB · Affichages: 49
  • Extraction_Clipboard.png
    Extraction_Clipboard.png
    115.2 KB · Affichages: 48
  • Résultats.png
    Résultats.png
    49.6 KB · Affichages: 40
Dernière édition:

Discussions similaires

Statistiques des forums

Discussions
315 089
Messages
2 116 098
Membres
112 661
dernier inscrit
ceucri