Ceci est une page optimisée pour les mobiles. Cliquez sur ce texte pour afficher la vraie page.

Microsoft 365 Recherche d'un code à 13 chiffres dans des fichiers PDF via excel ou PowerQuery

  • Initiateur de la discussion Initiateur de la discussion Lulu974
  • Date de début Date de début

Boostez vos compétences Excel avec notre communauté !

Rejoignez Excel Downloads, le rendez-vous des passionnés où l'entraide fait la force. Apprenez, échangez, progressez – et tout ça gratuitement ! 👉 Inscrivez-vous maintenant !

Lulu974

XLDnaute Nouveau
Bonjour à tous,
Voilà j'ai une liste de codes GTIN à 13 chiffres (1 code à 13 chiffres par cellules) dans excel (5637 codes) que je souhaite rechercher en masse dans des PDF présents dans un dossier (9036 PDF).
Si cette recherche aboutie, elle devrait me donner le nom du fichier PDF (pour que je puisse l'identifier rapidement + le code à 13 chiffres trouvé).

Je ne sais pas si ma demande est compréhensible.

Est-ce que cela vous semble possible ?

Je vous remercie d'avance pour votre aide.

Bonne soirée.
Lucie
 

Pièces jointes

@Bernard_XLD
Pour info, le fichier endommagé à 0Ko faisait partie de la 1ère analyse et ça avait bien fonctionné aujourd'hui. L'analyse avait bien abouti au bout de 8h41. Donc ce n'est pas ce fichier endommagé à 0Ko qui a planté l'analyse hier 🤔.
Je viens de lancé la 2nde. Je te tiens au courant.
Lucie
 
Dernière édition:
Bonjour Lulu974, le fil , le forum

our les tests j'ai dû supprimer pas mal d'info sur les PDF pour que ce soit neutre, mais sache que certains PDF peuvent peser lourd car il y a des photos à titre d'exemple :
Je comprends mieux les temps de traitement, les fichiers PDF n'étaient pas représentatifs.
cela veut dire aussi que la vitesse de chargement des fichiers PDF impacte fortement le temps de traitement, plus le support sera rapide, plus le traitement sera accéléré, un SSD serait un plus.
je vais revoir le programme pour gérer plus de pages et l'accélérer si possible
 
Bonsoir @Bernard_XLD , @chris, à tous,
Ah d'accord je comprends mieux également 😅 . Je n'avais pas conscience du poids des PDF et du nombre de pages. En effet les PDF que j'ai fourni n'étaient pas représentatifs. Mille excuses.

Alors pour info voici le comparatif des analyses que j'ai réalisé avec d'une part la solution PowerQuery et d'autre part la solution VBA sur la même base de recherche =>5635 code GTIN dans 8926 fichiers de formats divers ( 8851 PDF - 6 DOCX - 38 DOC - 1 ODT - 7 XLS - 17 XLSX - 5 JPG - 1 PPT. Désolée il n'y a pas que des PDF 🙁, je m'en suis rendu compte après mon premier post) :

Je ne me suis pas encore posée pour regarder en profondeur. Je vous le post brute.


* @chris , merci pour ton nouveau fichier. Cela permet de voir ce qui est traité et pas traité en un coup d'oeil. c'est super top ! Ce que je constate du coup, je confirme que dans les fichiers trouvés et non traités ou non traitables n'apparaissent pas les fichiers sous autre format que PDF.


@Bernard_XLD : Aïe mon support n'a pas le top du top. ça reste basic mais je prends note pour le SSD 👍. Merci pour



Qu'en pensez-vous ?
Merci pour nos échanges constructifs en tout cas 😉 !
Bonne soirée
Lucie
 
RE
l'extension pdf est filtrée dès le départ donc les écarts ne portent effectivement que sur cette extension

il faudrait voir dans les trouvés par VBA et pas par PQ la raison : il y a peu de fichiers donc on doit pouvoir analyser la raison

La recherche PQ est stricte : on peut voir à l'assouplir légèrement si on a des billes sur ces écarts
 
Bonjour Lulu974 et chris, le forum

@Lulu974
et voila la V2, elle n'est plus limitée en nombre de pages, elle est plus rapide et devrait l'être aussi avec tes vrais fichiers. Elle devrait absorber sans peine 10000 fichiers PDF et ne devrait normalement louper aucun code.
J'ai ajouté un message de fin de traitement pour avoir le temps exact.
J'ai fait un test en dupliquant les codes et les fichiers pour faire 5000 codes et 1000 fichiers en recherchant plusieurs fois tous les codes existant dans tous les fichiers pour tester un maximum de références existantes dans les fichiers, le programme m'a généré sans broncher 217600 liens en 10 minutes (mais j'ai un SSD dernière génération en Pci Express 4 et les fichiers sont de petite taille).
Tu n'as plus qu'à tester en conditions réelles.
Merci de ton retour

Cordialement, @+
 

Pièces jointes

Re,

8926 fichiers de formats divers ( 8851 PDF - 6 DOCX - 38 DOC - 1 ODT - 7 XLS - 17 XLSX - 5 JPG - 1 PPT. Désolée il n'y a pas que des PDF 🙁, je m'en suis rendu compte après mon premier post) :
Là, c'est pas cool !
il faut adapter pour chaque type de fichier, pour les JPG, fichiers image, c'est mort à moins d'utiliser un OCR.
Et je ne pense pas que PowerQuery pourra le faire !
 
- Navigue sans publicité
- Accède à Cléa, notre assistante IA experte Excel... et pas que...
- Profite de fonctionnalités exclusives
Ton soutien permet à Excel Downloads de rester 100% gratuit et de continuer à rassembler les passionnés d'Excel.
Je deviens Supporter XLD

Discussions similaires

Réponses
2
Affichages
579
Les cookies sont requis pour utiliser ce site. Vous devez les accepter pour continuer à utiliser le site. En savoir plus…