Identifier, compter les doublons et ne retenir que la plus grande récurence

erics83 · 29 Août 2017

Bonjour,
Avant toute chose, je suis allé sur les supers Tutos de JB (merci JB pour toutes ces sources d'inspiration) concernant les doublons, mais mon souci va plus loin (bref, j'ai pas trouvé comment ré-utiliser les codes...) : j'importe des données dont je n'ai pas la maitrise du format, et ce format change parfois ....j'ai des "_" qui s'en mêlent, des espaces entre les noms et prénoms, des espaces ou non entre des particules de nom....bref, que du bonheur....ce fichier fait 400000 lignes (et oui, et c’est lourd à traiter..lol...), en A, le "code" de la personne, en B, son nom/prénom. Donc, j'ai d'abord commencé à faire un TCD, histoire d'identifier les récurences des noms, mais....il n'a pas pris les 400000 lignes (d'ailleurs, je n'ai pas compris..., mais bon...)., donc, j'ai regardé les codes de JB, pensant trouver une solution, mais sans succès....
Donc, en fait, ce que je souhaiterai obtenir est d'avoir par code, le plus grand nombre de fois où un nom/prénom apparait (disons le format de texte le plus utilisé) et ne "retenir" par code que ce nom/prénom....

Comme je sais que je ne suis pas toujours très très clair dans mes explications (lol), j'ai mis un fichier test en PJ

En vous remerciant pour votre aide,

Dugenou · 29 Août 2017

Bonjour,
Pj à tester avec des formules matricielles dont une en formule nommée. Je ne sais pas ce que ça va donner sur un très grand nombre de lignes
Cordialement

erics83 · 29 Août 2017

Merci Dugenou,

En fait, j'ai essayé les formules sur mes 354817 lignes et.....ça tourne depuis plus de 1h.....: j'ai modifié la formule en remplaçant "29" par "354817 ", j'ai mis à jour la plage nommée en mettant jusqu'à 854817.

Et...depuis 1h, cela tourne....donc soit, j'ai fait une erreur de manip, soit les formules matricielles ne sont pas adaptées à mon cas....

Merci pour votre aide,

Dugenou · 29 Août 2017

Bonjour,
Les formules matricielles ne sont pas adaptées au dela de 100000 lignes en effet : arrete tout et essaye sur 10 000 et tu verras déjà le temps.
je pense que seule une macro peut de sortir de ce probleme
Désolé

erics83 · 29 Août 2017

Merci Dugenou,

Effectivement, je comprends mieux...j'ai fait un essai sur 10000 lignes, cela met du temps, mais...on a le "bon" résultat...

En fait, grâce à tes formules, j'ai compris aussi pourquoi j'avais des erreurs en passant par TCD : en fait j'avais pour certains nom/prénom 2 codes (lors d'un changement d'adresse, le nom reste le même, mais l'affectation (=code) était modifié....
Donc, j'ai tout repris via des TCD et formules type "SUPPRESPACE", "REMPLACE", etc....et j'obtiens le résultat attendu...

Merci pour ton aide, qui m'a permis de voir comment mieux utiliser les formules matricielles (avec lesquelles je ne suis pas très à l'aise...) et qui m'a aussi permis d'identifier les erreurs générées par mon fichier source.

Merci pour ton aide sur ce Post,

zebanx · 29 Août 2017

Bonjour Eric 83, Dugenou, Nicole et le forum.

Un fichier avec un peu de VBA (pour extaire les codes uniques et des tableaux) et des tableaux à faire glisser qui permettent de retrouver l'information rapidement (en tout cas sur 65000 lignes excel 2003).
Sinon, pour aller plus vite, il n'y aura probablement que du scripting dictionnary.

Je ne peux pas aller au bout de la formule de la colonne E si des valeurs ont exactement la même récurrence parce que je travaille sous excel 2003 (formule : MODE.MULTIPLE)
Tout est expliqué sur la première WKS avec un renvoi à l'utilisation de MODE. MULTIPLE.

Cdlt
thierry

erics83 · 29 Août 2017

Bonjour,

Merci Nicole, votre code est super génial, puisque je l'ai réutilisé (via Bebere) dans un précédent Post, et j e l'ai déjà réutilisé aussi dans un autre cas. Merci. Par contre dans mon exemple, je ne cherche pas un classement, mais juste à récupérer le code par rapport au plus grand nombre d'occurences....Mais Merci, c'est effectivement un code réutilisable et qui fonctionne très très bien. Merci.

Merci Zebanx, merci pour ce très bel exemple. En fait, j'ai trouvé ma solution via un TCD et formule, mais votre code me semble tout à fait adapté pour une autre utilisation que je pensais utiliser, donc vous avez anticipé un de mes prochain post...lol....Donc Merci.

Merci pour votre aide à tous et toutes. Je mets le fichier avec ma solution TCD, qui utilise des formules et des tris et copier/coller.....pas très orthodoxe, je sais.....Merci pour votre aide

Dugenou · 29 Août 2017

Merci Nicole,
Si je peux me permettre : pourrait-on avoir les codes de la même façon et l'affichage code - nom ?

Merci d'avance

Dugenou · 29 Août 2017

merci !

zebanx · 29 Août 2017

Bonsoir Nicole,

Merci pour cette macro et cette fonction.

Motivant pour les dictionnaires🙂

erics83 · 30 Août 2017

Et je rajoute, MERCI Nicole.....car votre SUB va m'être très utile et ré-utilisable ....Merci,

Merci pour votre aide,

Identifier, compter les doublons et ne retenir que la plus grande récurence

erics83

XLDnaute Impliqué

Pièces jointes

Dugenou

XLDnaute Barbatruc

Pièces jointes

erics83

XLDnaute Impliqué

Dugenou

XLDnaute Barbatruc

erics83

XLDnaute Impliqué

zebanx

XLDnaute Accro

Pièces jointes

erics83

XLDnaute Impliqué

Pièces jointes

Dugenou

XLDnaute Barbatruc

Dugenou

XLDnaute Barbatruc

zebanx

XLDnaute Accro

erics83

XLDnaute Impliqué

Discussions similaires

Identifier, compter les doublons et ne retenir que la plus grande récurence

XLDnaute Impliqué

Pièces jointes

XLDnaute Barbatruc

Pièces jointes

XLDnaute Impliqué

XLDnaute Barbatruc

XLDnaute Impliqué

XLDnaute Accro

Pièces jointes

XLDnaute Impliqué

Pièces jointes

XLDnaute Barbatruc

XLDnaute Barbatruc

XLDnaute Accro

XLDnaute Impliqué

Discussions similaires

Privacy & Transparency

Privacy & Transparency