Microsoft 365 Recherche d'un code à 13 chiffres dans des fichiers PDF via excel ou PowerQuery

Lulu974 · 20 Janvier 2023

Bonjour à tous,
Voilà j'ai une liste de codes GTIN à 13 chiffres (1 code à 13 chiffres par cellules) dans excel (5637 codes) que je souhaite rechercher en masse dans des PDF présents dans un dossier (9036 PDF).
Si cette recherche aboutie, elle devrait me donner le nom du fichier PDF (pour que je puisse l'identifier rapidement + le code à 13 chiffres trouvé).

Je ne sais pas si ma demande est compréhensible.

Est-ce que cela vous semble possible ?

Je vous remercie d'avance pour votre aide.

Bonne soirée.
Lucie

Lulu974 · 26 Janvier 2023

Lulu974 à dit:
Bonsoir @Bernard_XLD ,
Ah tu me rassures 🙂. J'étais bien lancé hier et quand ça a planté hier fin d'aprem, j'étais 😱 😭. Cependant j'ai oublié de préciser hier mais saches que suite à l'analyse qui a planté cela m'a donné des résultats quand même : ~~1085~~ 860 résultats trouvés.

Alors dans l'hypothèse où il y avait trop grand nombre de PDF à analyser (et comme je l'ai indiqué à @chris je me suis aperçue qu'il y a également des fichiers WORD/EXCEL/Images que je n'avais pas vu) , j'ai décidé, ce midi, de lancer une 1ère analyse qui a aboutie cette fois-ci => 5634 code GTIN dans 4463 PDF ou autres (en gros j'ai splitté en 2 mon dossier PDF) ce qui m'a donné 1060 matchs et voici niveau progression ce que ça a donné :
Regarde la pièce jointe 1161464

Je vais lancé une 2nde analyse sur les 4463 PDF ou autres restant. Je te dirais si niveau timing on est pareil ☺️.

Alors pour répondre à tes interrogations : Mes fichiers PDF sont hébergés sur disque dur externe. Ces fichiers sont également sur mon PC, qui est synchro à MO365, mais ils sont classés dans un dossier comprenant des sous-dossiers. Comme je ne sais pas si ta proposition recherche dans un dossier avec des sous-dossiers, j'ai préféré faire comme ça sur disque dur externe.
Mais si la synchro MS365 + recherche dans un dossier avec des sous-dossiers est possible, il se pourrait que ça aille plus vite.
Alors moi je suis sous Excel Microsoft 365 - PC Windows10 - RAM 8G - SE 64.

Je ne peux pas mettre les PDF ici malheureusement de part la confidentialité.
Pour les tests j'ai dû supprimer pas mal d'info sur les PDF pour que ce soit neutre, mais sache que certains PDF peuvent peser lourd car il y a des photos à titre d'exemple :
Regarde la pièce jointe 1161470
Les fichiers les plus légers font :
Regarde la pièce jointe 1161471
Ah tiens !! le 0Ko m'interpelle ... en l'ouvrant dans adobe =>fichier endommagé. Ca se trouve c'est ça qui a fait planté l'analyse d'hier.
J'espère avoir répondu un max à tes interrogations @Bernard_XLD .
Encore merci pour ta patience ton aide. Vous êtes top @Bernard_XLD @chris @eastwick @kiki29 !
Bonne soirée
Lucie

@Bernard_XLD
Pour info, le fichier endommagé à 0Ko faisait partie de la 1ère analyse et ça avait bien fonctionné aujourd'hui. L'analyse avait bien abouti au bout de 8h41. Donc ce n'est pas ce fichier endommagé à 0Ko qui a planté l'analyse hier 🤔.
Je viens de lancé la 2nde. Je te tiens au courant.
Lucie

chris · 26 Janvier 2023

Bonjour

Merci du retour

On pourrait lister les pdf qui ne retournent rien pour voir si cela s'explique et peut-être améliorer la requête

chris · 26 Janvier 2023

RE

Voici avec la requête ajoutée qui liste les pdf absents du résultat, soit sans données, soient en erreur lors du traitement

Lulu974 · 26 Janvier 2023

chris à dit:
RE

Voici avec la requête ajoutée qui liste les pdf absents du résultat, soit sans données, soient en erreur lors du traitement

Re @chris
Super bonne idée 👍. Merci je teste le fichier après la seconde analyse VBA du fichier de Bernard.
Je te tiens au courant.
Lucie

Bernard_XLD · 26 Janvier 2023

Bonjour Lulu974, le fil , le forum

Lulu974 à dit:
our les tests j'ai dû supprimer pas mal d'info sur les PDF pour que ce soit neutre, mais sache que certains PDF peuvent peser lourd car il y a des photos à titre d'exemple :

Je comprends mieux les temps de traitement, les fichiers PDF n'étaient pas représentatifs.
cela veut dire aussi que la vitesse de chargement des fichiers PDF impacte fortement le temps de traitement, plus le support sera rapide, plus le traitement sera accéléré, un SSD serait un plus.
je vais revoir le programme pour gérer plus de pages et l'accélérer si possible

Lulu974 · 27 Janvier 2023

Bernard_XLD à dit:
Bonjour Lulu974, le fil , le forum

Je comprends mieux les temps de traitement, les fichiers PDF n'étaient pas représentatifs.
cela veut dire aussi que la vitesse de chargement des fichiers PDF impacte fortement le temps de traitement, plus le support sera rapide, plus le traitement sera accéléré, un SSD serait un plus.
je vais revoir le programme pour gérer plus de pages et l'accélérer si possible

Bonsoir @Bernard_XLD , @chris, à tous,
Ah d'accord je comprends mieux également 😅 . Je n'avais pas conscience du poids des PDF et du nombre de pages. En effet les PDF que j'ai fourni n'étaient pas représentatifs. Mille excuses.

Alors pour info voici le comparatif des analyses que j'ai réalisé avec d'une part la solution PowerQuery et d'autre part la solution VBA sur la même base de recherche =>5635 code GTIN dans 8926 fichiers de formats divers ( 8851 PDF - 6 DOCX - 38 DOC - 1 ODT - 7 XLS - 17 XLSX - 5 JPG - 1 PPT. Désolée il n'y a pas que des PDF 🙁, je m'en suis rendu compte après mon premier post) :

Je ne me suis pas encore posée pour regarder en profondeur. Je vous le post brute.

* @chris , merci pour ton nouveau fichier. Cela permet de voir ce qui est traité et pas traité en un coup d'oeil. c'est super top ! Ce que je constate du coup, je confirme que dans les fichiers trouvés et non traités ou non traitables n'apparaissent pas les fichiers sous autre format que PDF.

@Bernard_XLD : Aïe mon support n'a pas le top du top. ça reste basic mais je prends note pour le SSD 👍. Merci pour

Qu'en pensez-vous ?
Merci pour nos échanges constructifs en tout cas 😉 !
Bonne soirée
Lucie

chris · 27 Janvier 2023

RE
l'extension pdf est filtrée dès le départ donc les écarts ne portent effectivement que sur cette extension

il faudrait voir dans les trouvés par VBA et pas par PQ la raison : il y a peu de fichiers donc on doit pouvoir analyser la raison

La recherche PQ est stricte : on peut voir à l'assouplir légèrement si on a des billes sur ces écarts

Bernard_XLD · 27 Janvier 2023

Bonjour Lulu974 et chris, le forum

@Lulu974
et voila la V2, elle n'est plus limitée en nombre de pages, elle est plus rapide et devrait l'être aussi avec tes vrais fichiers. Elle devrait absorber sans peine 10000 fichiers PDF et ne devrait normalement louper aucun code.
J'ai ajouté un message de fin de traitement pour avoir le temps exact.
J'ai fait un test en dupliquant les codes et les fichiers pour faire 5000 codes et 1000 fichiers en recherchant plusieurs fois tous les codes existant dans tous les fichiers pour tester un maximum de références existantes dans les fichiers, le programme m'a généré sans broncher 217600 liens en 10 minutes (mais j'ai un SSD dernière génération en Pci Express 4 et les fichiers sont de petite taille).
Tu n'as plus qu'à tester en conditions réelles.
Merci de ton retour

Cordialement, @+

Bernard_XLD · 27 Janvier 2023

Re,

Lulu974 à dit:
8926 fichiers de formats divers ( 8851 PDF - 6 DOCX - 38 DOC - 1 ODT - 7 XLS - 17 XLSX - 5 JPG - 1 PPT. Désolée il n'y a pas que des PDF 🙁, je m'en suis rendu compte après mon premier post) :

Là, c'est pas cool !
il faut adapter pour chaque type de fichier, pour les JPG, fichiers image, c'est mort à moins d'utiliser un OCR.
Et je ne pense pas que PowerQuery pourra le faire !

Bernard_XLD · 27 Janvier 2023

re,

chris à dit:
On pourrait lister les pdf qui ne retournent rien pour voir si cela s'explique

vu qu'il y a des fichiers autres que PDF, que les formats des PDF fournis n'étaient pas représentatifs et que le format PDF est un encapsulage, j'ai un peu peur que certains PDF soient en fait des fichiers vectoriels, donc non matricés.

Effectuez une recherche sur Excel Downloads...

Microsoft 365 Recherche d'un code à 13 chiffres dans des fichiers PDF via excel ou PowerQuery

Lulu974

XLDnaute Nouveau

Pièces jointes

Lulu974

XLDnaute Nouveau

chris

XLDnaute Barbatruc

chris

XLDnaute Barbatruc

Pièces jointes

Lulu974

XLDnaute Nouveau

Bernard_XLD

XLDnaute Barbatruc

Lulu974

XLDnaute Nouveau

chris

XLDnaute Barbatruc

Bernard_XLD

XLDnaute Barbatruc

Pièces jointes

Bernard_XLD

XLDnaute Barbatruc

Bernard_XLD

XLDnaute Barbatruc

Discussions similaires

Nous accordons de l'importance à votre vie privée