Ceci est une page optimisée pour les mobiles. Cliquez sur ce texte pour afficher la vraie page.

XL 2013 Comment supprimer des "quasi doublons" sans perte de données ?

Fabien Greppo

XLDnaute Nouveau
Bonjour à tous,

J'ai un fichier excel de +/- 35 000 lignes qui contient un grand nombre de quasi doublons.

Un fichier vaut mieux que 1000 mots, donc je vous mets une situation en PJ qui résume parfaitement les problématiques rencontrées. Il contient 5 lignes et j'aimerais en avoir 2 à la fin du dédoublonnage sans pour autant perdre d'informations.

Est-il possible de "rassembler" des lignes doublons par une sorte de concatener horizontal ?

J'espère que ma situation sera claire pour vous mais n'hésitez pas à revenir vers moi au besoin .

Milles mercis,
Fabien
 

Pièces jointes

  • Problématiques quasi doublons.xlsx
    47.4 KB · Affichages: 21

Dudu2

XLDnaute Barbatruc
Bonjour,

Comme tu ne le précises pas, faut-il supposer qu'un doublon c'est lorsque c'est le même nom de magasin et le même CP ? Ou le même nom de magasin et la même adresse ? Autre ?

Je ne vois pas tellement d'autre solution que de passer par une Macro VBA qui regroupent les différentes lignes.

Il faudrait aussi clairement préciser comment sont regroupées les données des doublons.
Que veut dire "concaténer horizontal" ? Pour l'adresse des lignes 2 et 4 regroupées ce serait "Limon Limon" ?

Cela suppose de trier préalablement la feuille (dans la Macro) sur les colonnes doublon.
D.
 

Fabien Greppo

XLDnaute Nouveau
Bonjour Dudu2 et merci pour ton retour.

J'imaginais bien ce type de réponse mais j'espèrais que l'expérience de la communauté aurait peut être déjà des règles pré-définies pour répondre à ces problématiques.

Le règle pour identifier les doublons peut être
- Si A / E / F est identique (j'ai cru comprendre qu'il était possible d'exclure de la logique les virgules et différences minimes telles que les articles "Le" "Au" etc.)
- Si B / C est identique (on garde 3 chiffres après la virgule pour la comparaison)

Une fois les doublons identifiés, on peut les regrouper, c'est à dire :
- concatener l'informations des colonnes G à V avec un indicateur de séparation type /. Par exemple, si j'ai un téléphone 06 dans la ligne 1 et un 04 dans la ligne 2, ça devient 06 / 04 dans la ligne qu'on garde
- une fois concatener les infos, on supprimer la ligne qui a été "aspirée"

Qu'en penses-tu ?
 

Dudu2

XLDnaute Barbatruc
Bonjour
Le règle pour identifier les doublons peut être
- Si A / E / F est identique (j'ai cru comprendre qu'il était possible d'exclure de la logique les virgules et différences minimes telles que les articles "Le" "Au" etc.)
Je n'ai pas dans mes cartons de quoi traiter une "logique floue" sur les contenus textuel, ça demande une expertise que je n'ai pas. Désolé
 

patricktoulon

XLDnaute Barbatruc
re
bonjour
(j
'ai cru comprendre qu'il était possible d'exclure de la logique les virgules et différences minimes telles que les articles "Le" "Au" etc.)
oui plus ou moins ça existe mais a un prix de lourdeur d’analyse (alogorhitme de Damerau-Levenshtein) et ça n'est pas sur a 100%

peut être est -ce là déjà (un soucis de conception/ négligence) dans l'obtention des données
 
Dernière édition:
Les cookies sont requis pour utiliser ce site. Vous devez les accepter pour continuer à utiliser le site. En savoir plus…