Pas trouvé de solution sur Internet. Dans ce classeur je voudrais récupérer le texte "Bonjour.txt" qui est le Caption (je suppose) de l' "Embbeded Object". Merci par avance.
En effet ce pdftotext fait un peu n'importe quoi. Je me suis focalisé sur le principe plus que sur le résultat.
Je pense que les lignes manquantes sont dues au fait qu'il ne coupe pas beaucoup de lignes ce qui en réduit le nombre. Je vais essayer de trouver un autre pdftotext, dans le fameux poppler.
J'ai donc ajusté au mieux les options pour avoir un texte qui soit à peu près linéaire à l'image de ce qu'on peut obtenir avec la ressource VBA - Récuperer le texte d'un fichier PDF avec un navigateur Internet. que je dois au passage améliorer pour sortir en fichier éventuellement.
Sur un fichier PDF "simple" il y a peu de différence entre les 2 méthodes.
Sur le fichier que tu mentionnes, qui est extrêmement lourd et complexe, il y a une différence en nombre de lignes et en présentation du texte. Ça ne veut pas dire qu'il y a une version qui est bonne et l'autre mauvaise. Ça veut dire que les 2 méthodes donnent des résultats différents.
re
avec ta version pdftotext j'ai 15222 lignes
dans ces lignes il y en a qui sont vides
dans d'autres il y a une partie manquante de la ligne pleine juste au dessus de la precédente vide
conclusion
moins de lignes avec des lignes vides et des lignes coupées en deux
et on est à plus de 3000 lignes en moins sans compter celles qui sont vides et qui ne le sont pas avec ma version clip ou meme ta version navigateur api
j'ai contrôlé , il manques des paragraphes entier surtout vers le bas
le calcul est vite fait ca ne peut être qu'une présentation(restitution) différente
je soupconne une limite de capacité
faudrait demander à kiki69 un lien vers ce pdftotext qui fonctionnait à merveille
J'ai récupéré le ZIP indiqué dans le Post et ça ressemble furieusement à du Xpdf.
Le répertoire porte le même nom (Bin64) et le contenu est exactement le même ! Edit: sauf que la version est plus ancienne (3.04 vs 4.04 que j'utilise)
re
ma version n'a pas d'argument dans la ligne de commande
après tests de toute facon il manque pas mal
j'ai testé même le petit pdf c'est pas jojo apres pour aller récupérer des données
gardons la derniere version il faudra tester les argument table etc... pour voir si l'on peut récupérer des tables en bon et du forme
mais l'idée genérale et pas mal
je te propose d'en faire un xla(m) et de t'intégrer l'outils dans le ruban
oui j'ai deja commencé
il y aura une gallery
item 1 "Installer PdfToText"(visible si c'est pas encore installé)
item2 "Pdf To Text"'ouvrira une boite de dialogue de selection de fichier
item3 "Pdf To HTML" je m'en sert toujours de celui là
si tu a d'autre idées fait le moi savoir
je te le prepare d'abords dans un group perso dans l'onglet donnée à la fin apres je l'intègrerais dans le groupe données externes
bref il fonctionnera comme ceux qui sont déjà present dans ce groupe
t ok avec ça
j'essai de voir si apres 2007 on peu les intégrer dans le group existant prevu pour les données externe
mais il semble que depuis 2010 on ne puisse plus le faire
obligé de faire un nouveau group comme dans ma capture
je le laisse dans l'onglet donnée ou je fais un onglet perso ?
Onglet données ou perso ? Perso je choisirais perso, mais ce n'est pas essentiel.
J'ai modifié la version navigateur hier pour y ajouter la sortie sur fichier.