Microsoft 365 Recherche d'un code à 13 chiffres dans des fichiers PDF via excel ou PowerQuery

Lulu974

XLDnaute Nouveau
Bonjour à tous,
Voilà j'ai une liste de codes GTIN à 13 chiffres (1 code à 13 chiffres par cellules) dans excel (5637 codes) que je souhaite rechercher en masse dans des PDF présents dans un dossier (9036 PDF).
Si cette recherche aboutie, elle devrait me donner le nom du fichier PDF (pour que je puisse l'identifier rapidement + le code à 13 chiffres trouvé).

Je ne sais pas si ma demande est compréhensible.

Est-ce que cela vous semble possible ?

Je vous remercie d'avance pour votre aide.

Bonne soirée.
Lucie
 

Pièces jointes

  • Recherche_GTIN_PDF.xlsm
    10.1 KB · Affichages: 8

Lulu974

XLDnaute Nouveau
Bonsoir @Bernard_XLD ,
Ah tu me rassures :). J'étais bien lancé hier et quand ça a planté hier fin d'aprem, j'étais :eek: 😭. Cependant j'ai oublié de préciser hier mais saches que suite à l'analyse qui a planté cela m'a donné des résultats quand même : 1085 860 résultats trouvés.

Alors dans l'hypothèse où il y avait trop grand nombre de PDF à analyser (et comme je l'ai indiqué à @chris je me suis aperçue qu'il y a également des fichiers WORD/EXCEL/Images que je n'avais pas vu) , j'ai décidé, ce midi, de lancer une 1ère analyse qui a aboutie cette fois-ci => 5634 code GTIN dans 4463 PDF ou autres (en gros j'ai splitté en 2 mon dossier PDF) ce qui m'a donné 1060 matchs et voici niveau progression ce que ça a donné :
Regarde la pièce jointe 1161464

Je vais lancé une 2nde analyse sur les 4463 PDF ou autres restant. Je te dirais si niveau timing on est pareil ☺️.

Alors pour répondre à tes interrogations : Mes fichiers PDF sont hébergés sur disque dur externe. Ces fichiers sont également sur mon PC, qui est synchro à MO365, mais ils sont classés dans un dossier comprenant des sous-dossiers. Comme je ne sais pas si ta proposition recherche dans un dossier avec des sous-dossiers, j'ai préféré faire comme ça sur disque dur externe.
Mais si la synchro MS365 + recherche dans un dossier avec des sous-dossiers est possible, il se pourrait que ça aille plus vite.
Alors moi je suis sous Excel Microsoft 365 - PC Windows10 - RAM 8G - SE 64.

Je ne peux pas mettre les PDF ici malheureusement de part la confidentialité.
Pour les tests j'ai dû supprimer pas mal d'info sur les PDF pour que ce soit neutre, mais sache que certains PDF peuvent peser lourd car il y a des photos à titre d'exemple :
Regarde la pièce jointe 1161470
Les fichiers les plus légers font :
Regarde la pièce jointe 1161471
Ah tiens !! le 0Ko m'interpelle ... en l'ouvrant dans adobe =>fichier endommagé. Ca se trouve c'est ça qui a fait planté l'analyse d'hier.
J'espère avoir répondu un max à tes interrogations @Bernard_XLD .
Encore merci pour ta patience ton aide. Vous êtes top @Bernard_XLD @chris @eastwick @kiki29 !
Bonne soirée
Lucie
@Bernard_XLD
Pour info, le fichier endommagé à 0Ko faisait partie de la 1ère analyse et ça avait bien fonctionné aujourd'hui. L'analyse avait bien abouti au bout de 8h41. Donc ce n'est pas ce fichier endommagé à 0Ko qui a planté l'analyse hier 🤔.
Je viens de lancé la 2nde. Je te tiens au courant.
Lucie
 
Dernière édition:
Bonjour Lulu974, le fil , le forum

our les tests j'ai dû supprimer pas mal d'info sur les PDF pour que ce soit neutre, mais sache que certains PDF peuvent peser lourd car il y a des photos à titre d'exemple :
1674680470269.png
Je comprends mieux les temps de traitement, les fichiers PDF n'étaient pas représentatifs.
cela veut dire aussi que la vitesse de chargement des fichiers PDF impacte fortement le temps de traitement, plus le support sera rapide, plus le traitement sera accéléré, un SSD serait un plus.
je vais revoir le programme pour gérer plus de pages et l'accélérer si possible
 

Lulu974

XLDnaute Nouveau
Bonjour Lulu974, le fil , le forum


Je comprends mieux les temps de traitement, les fichiers PDF n'étaient pas représentatifs.
cela veut dire aussi que la vitesse de chargement des fichiers PDF impacte fortement le temps de traitement, plus le support sera rapide, plus le traitement sera accéléré, un SSD serait un plus.
je vais revoir le programme pour gérer plus de pages et l'accélérer si possible
Bonsoir @Bernard_XLD , @chris, à tous,
Ah d'accord je comprends mieux également 😅 . Je n'avais pas conscience du poids des PDF et du nombre de pages. En effet les PDF que j'ai fourni n'étaient pas représentatifs. Mille excuses.

Alors pour info voici le comparatif des analyses que j'ai réalisé avec d'une part la solution PowerQuery et d'autre part la solution VBA sur la même base de recherche =>5635 code GTIN dans 8926 fichiers de formats divers ( 8851 PDF - 6 DOCX - 38 DOC - 1 ODT - 7 XLS - 17 XLSX - 5 JPG - 1 PPT. Désolée il n'y a pas que des PDF :(, je m'en suis rendu compte après mon premier post) :

Je ne me suis pas encore posée pour regarder en profondeur. Je vous le post brute.

1674775833898.png

* @chris , merci pour ton nouveau fichier. Cela permet de voir ce qui est traité et pas traité en un coup d'oeil. c'est super top ! Ce que je constate du coup, je confirme que dans les fichiers trouvés et non traités ou non traitables n'apparaissent pas les fichiers sous autre format que PDF.

1674775841294.png

@Bernard_XLD : Aïe mon support n'a pas le top du top. ça reste basic mais je prends note pour le SSD 👍. Merci pour

1674775848523.png


Qu'en pensez-vous ?
Merci pour nos échanges constructifs en tout cas ;) !
Bonne soirée
Lucie
 

chris

XLDnaute Barbatruc
RE
l'extension pdf est filtrée dès le départ donc les écarts ne portent effectivement que sur cette extension

il faudrait voir dans les trouvés par VBA et pas par PQ la raison : il y a peu de fichiers donc on doit pouvoir analyser la raison

La recherche PQ est stricte : on peut voir à l'assouplir légèrement si on a des billes sur ces écarts
 
Bonjour Lulu974 et chris, le forum

@Lulu974
et voila la V2, elle n'est plus limitée en nombre de pages, elle est plus rapide et devrait l'être aussi avec tes vrais fichiers. Elle devrait absorber sans peine 10000 fichiers PDF et ne devrait normalement louper aucun code.
J'ai ajouté un message de fin de traitement pour avoir le temps exact.
J'ai fait un test en dupliquant les codes et les fichiers pour faire 5000 codes et 1000 fichiers en recherchant plusieurs fois tous les codes existant dans tous les fichiers pour tester un maximum de références existantes dans les fichiers, le programme m'a généré sans broncher 217600 liens en 10 minutes (mais j'ai un SSD dernière génération en Pci Express 4 et les fichiers sont de petite taille).
Tu n'as plus qu'à tester en conditions réelles.
Merci de ton retour

Cordialement, @+
1674805562711.png
 

Pièces jointes

  • Recherche_GTIN_PDF_VBA - V2.xlsm
    447.7 KB · Affichages: 2
Re,

8926 fichiers de formats divers ( 8851 PDF - 6 DOCX - 38 DOC - 1 ODT - 7 XLS - 17 XLSX - 5 JPG - 1 PPT. Désolée il n'y a pas que des PDF :(, je m'en suis rendu compte après mon premier post) :
Là, c'est pas cool !
il faut adapter pour chaque type de fichier, pour les JPG, fichiers image, c'est mort à moins d'utiliser un OCR.
Et je ne pense pas que PowerQuery pourra le faire !
 

Discussions similaires

Statistiques des forums

Discussions
315 093
Messages
2 116 125
Membres
112 666
dernier inscrit
Coco0505