Ceci est une page optimisée pour les mobiles. Cliquez sur ce texte pour afficher la vraie page.

Microsoft 365 Recherche d'un code à 13 chiffres dans des fichiers PDF via excel ou PowerQuery

Lulu974

XLDnaute Nouveau
Bonjour à tous,
Voilà j'ai une liste de codes GTIN à 13 chiffres (1 code à 13 chiffres par cellules) dans excel (5637 codes) que je souhaite rechercher en masse dans des PDF présents dans un dossier (9036 PDF).
Si cette recherche aboutie, elle devrait me donner le nom du fichier PDF (pour que je puisse l'identifier rapidement + le code à 13 chiffres trouvé).

Je ne sais pas si ma demande est compréhensible.

Est-ce que cela vous semble possible ?

Je vous remercie d'avance pour votre aide.

Bonne soirée.
Lucie
 

Pièces jointes

  • Recherche_GTIN_PDF.xlsm
    10.1 KB · Affichages: 8

Lulu974

XLDnaute Nouveau
@Bernard_XLD
Pour info, le fichier endommagé à 0Ko faisait partie de la 1ère analyse et ça avait bien fonctionné aujourd'hui. L'analyse avait bien abouti au bout de 8h41. Donc ce n'est pas ce fichier endommagé à 0Ko qui a planté l'analyse hier .
Je viens de lancé la 2nde. Je te tiens au courant.
Lucie
 
Dernière édition:
Bonjour Lulu974, le fil , le forum

our les tests j'ai dû supprimer pas mal d'info sur les PDF pour que ce soit neutre, mais sache que certains PDF peuvent peser lourd car il y a des photos à titre d'exemple :
Je comprends mieux les temps de traitement, les fichiers PDF n'étaient pas représentatifs.
cela veut dire aussi que la vitesse de chargement des fichiers PDF impacte fortement le temps de traitement, plus le support sera rapide, plus le traitement sera accéléré, un SSD serait un plus.
je vais revoir le programme pour gérer plus de pages et l'accélérer si possible
 

Lulu974

XLDnaute Nouveau
Bonsoir @Bernard_XLD , @chris, à tous,
Ah d'accord je comprends mieux également . Je n'avais pas conscience du poids des PDF et du nombre de pages. En effet les PDF que j'ai fourni n'étaient pas représentatifs. Mille excuses.

Alors pour info voici le comparatif des analyses que j'ai réalisé avec d'une part la solution PowerQuery et d'autre part la solution VBA sur la même base de recherche =>5635 code GTIN dans 8926 fichiers de formats divers ( 8851 PDF - 6 DOCX - 38 DOC - 1 ODT - 7 XLS - 17 XLSX - 5 JPG - 1 PPT. Désolée il n'y a pas que des PDF , je m'en suis rendu compte après mon premier post) :

Je ne me suis pas encore posée pour regarder en profondeur. Je vous le post brute.


* @chris , merci pour ton nouveau fichier. Cela permet de voir ce qui est traité et pas traité en un coup d'oeil. c'est super top ! Ce que je constate du coup, je confirme que dans les fichiers trouvés et non traités ou non traitables n'apparaissent pas les fichiers sous autre format que PDF.


@Bernard_XLD : Aïe mon support n'a pas le top du top. ça reste basic mais je prends note pour le SSD . Merci pour



Qu'en pensez-vous ?
Merci pour nos échanges constructifs en tout cas !
Bonne soirée
Lucie
 

chris

XLDnaute Barbatruc
RE
l'extension pdf est filtrée dès le départ donc les écarts ne portent effectivement que sur cette extension

il faudrait voir dans les trouvés par VBA et pas par PQ la raison : il y a peu de fichiers donc on doit pouvoir analyser la raison

La recherche PQ est stricte : on peut voir à l'assouplir légèrement si on a des billes sur ces écarts
 
Bonjour Lulu974 et chris, le forum

@Lulu974
et voila la V2, elle n'est plus limitée en nombre de pages, elle est plus rapide et devrait l'être aussi avec tes vrais fichiers. Elle devrait absorber sans peine 10000 fichiers PDF et ne devrait normalement louper aucun code.
J'ai ajouté un message de fin de traitement pour avoir le temps exact.
J'ai fait un test en dupliquant les codes et les fichiers pour faire 5000 codes et 1000 fichiers en recherchant plusieurs fois tous les codes existant dans tous les fichiers pour tester un maximum de références existantes dans les fichiers, le programme m'a généré sans broncher 217600 liens en 10 minutes (mais j'ai un SSD dernière génération en Pci Express 4 et les fichiers sont de petite taille).
Tu n'as plus qu'à tester en conditions réelles.
Merci de ton retour

Cordialement, @+
 

Pièces jointes

  • Recherche_GTIN_PDF_VBA - V2.xlsm
    447.7 KB · Affichages: 2
Re,

8926 fichiers de formats divers ( 8851 PDF - 6 DOCX - 38 DOC - 1 ODT - 7 XLS - 17 XLSX - 5 JPG - 1 PPT. Désolée il n'y a pas que des PDF , je m'en suis rendu compte après mon premier post) :
Là, c'est pas cool !
il faut adapter pour chaque type de fichier, pour les JPG, fichiers image, c'est mort à moins d'utiliser un OCR.
Et je ne pense pas que PowerQuery pourra le faire !
 

Discussions similaires

Les cookies sont requis pour utiliser ce site. Vous devez les accepter pour continuer à utiliser le site. En savoir plus…