Aide de DÉCLIC Prospection Sommaire de l'Aide Index de l'Aide Accueil du site
16.6.2 Repérage et suppression des Doublons
1 Principaux concepts
et terminologie utilisés
La relative complexité du sujet impose de commencer par préciser
certains concepts et définir les principales notions utiles.
Une "zone identifiante" est une zone dont le contenu
identifie (ou caractérise) l'entreprise pour une base de données
d'entreprises (par ex. le N° R.C.), ou la personne pour une base de
particuliers (par ex. le N° S.S.). La zone téléphone constitue généralement
une excellente "zone identifiante". (Dans les exemples cités par la suite
nous supposerons que la "zone identifiante" est la zone téléphone.)
Une "fiche en double" est une fiche dont le contenu de la "zone
identifiante" se retrouve dans au moins une autre fiche (par ex. une fiche
dont le téléphone se retrouve ailleurs).
Une "série de fiches en double" est constituée des fiches dont le
contenu de la "zone identifiante" est identique (par ex. toutes les fiches
qui ont un même téléphone). Un tri sur la "zone identifiante" rend les
fiches de chaque "série de fiches en double" consécutives.
La "suppression des doublons" consiste à supprimer, pour chaque
"série de fiches en double" toutes les fiches sauf une, la "meilleure
fiche de la série" (par ex. supprimer toutes les fiches de même
téléphone sauf celle que l'on souhaite conserver).
Dans certains cas il est nécessaire, avant la suppression, de regrouper des
information de plusieurs de la série, opération qui ne peut pas être
automatisés.
La "zone qualifiante" est la zone qui, utilisée en second critère de
tri, permet de placer la "meilleure fiche de la série" toujours en tête (ou
toujours en queue) de chaque série. Par exemple, dans le cas fréquent où les
fiches à dédoublonner proviennent de différentes sources de données, on
souhaite généralement conserver en priorité les fiches de certaines sources.
Dans ce cas la "zone qualifiante" sera la zone source ou origine.
Nota: S'il n'existe pas de zone "Identifiante" la recherche de fiches
en double est beaucoup plus complexe, car elle fait alors intervenir
plusieurs zones (par exemple l'Entreprise et la Ville) avec des règles
généralement difficiles à automatiser.
On pourra souvent, dans ce cas; utiliser la zone la plus identifiante
possible, la zone Entreprise par exemple et utiliser la fonction ci-dessous,
avec des précautions particulières.
S'il n'est pas possible de définir et d'utiliser zone "Identifiante", la
suppression devra être effectuée manuellement.
2 Description de la fonction de recherche
et suppression des doublons
|
La nouvelle fonction de recherche et de suppression des
Doublons se trouve dans l'option "Structuration des Informations,
Doublons" des "Fonctions Spéciales" de l'écran "Outils".
La fonction commence par afficher l'écran ci-dessous qui rappelle dans
son titre le 1er critère de tri en cours, ici la zone "Téléphone", ce
qui suppose que la "zone identifiante" est la zone "Téléphone". |
 |
Le nota en rouge de la figure rappelle que, préalablement au
lancement de la fonction, il convient de trier sur la "zone identifiante" en
premier critère et sur la "zone qualifiante" en second critère (si possible) de
façon à rendre les fiches de chaque "série de fiches en double" consécutives
avec la meilleure toujours en tête (ou toujours en queue).
Comme le montre l'écran ci-dessus, 3 types de repérage sont proposés:
. Repérer les doublons sauf les premiers de chaque
série de doublons (série correspondant à un même téléphone).
. Repérer les doublons sauf les derniers de chaque
série de doublons.
Ces 2 premières options sont très similaires. Dans l'exemple des téléphones,
elles reviennent à repérer avec la coche blanche les fiches ayant le même
téléphone sauf une (la première ou la dernière de chaque série). Si après
exécution de la fonction, on supprime les fiches repérées par la coche blanche,
on obtient une base de données sans doublon (toutes les fiches ont des
téléphones différents).
Le premier exemple ci-dessous présente un exemple caractéristique de ce mode de
repérage.
. Repérer tous les doublons y compris le premier et
le dernier de chaque série de doublons.
Le second exemple ci-dessous montre l'intérêt du dernier mode de repérage
Dans les 3 options ci-dessus décrites:
Nota: Le repérage s'effectue
systématiquement avec la Coche Blanche dont l'ancienne configuration est perdue.
Il n'est pas nécessaire d'effacer préalablement les coches blanches car les
repérages effacent les coches blanches des fiches non repérées.
Rappelons que la coche blanche est réservée à ce genre de repérage occasionnel.
Les 2 boutons de défilement (situés à droite des coches) permettent de
défiler les fiches repérées, en l'occurrence de parcourir les doublons pour les
examiner et les contrôler.
Dans la détection des doublons il n'est pas tenu compte des blancs avant et
après, ainsi que de la casse (majuscule, minuscule).
3 Deux exemples
caractéristiques de repérage et suppression de doublons :
Exemple 1. Suppression de doublons sur le téléphone en conservant de préférence
les fiches pour lesquelles le Fax est renseigné. Cet exemple correspond au
cas classique de suppression de fiches en double en conservant la mieux
renseignée.
Une telle suppression de doublons peut s'effectuer très simplement:
. tri des fiches sur le téléphone et sur le fax en
second critère. Les fiches ayant le même téléphone deviendront consécutives avec
en tête les fiches dépourvues de fax (zone fax vide).
. repérage des doublons sauf le dernier avec la
coche (2ème option)
. suppression des fiches repérées par la coche
blanche
Dans les fiches résiduelles, pour chaque téléphone il n'y aura qu'une seule
fiche, avec un fax s'il existait une fiche avec ce téléphone et un fax dans les
fiches de départ.
Exemple 2. Suppression des fiches à l'aide d'une liste de désabonnement
d'un emailing (ou d'un faxmailing)
La liste de désabonnement se présente comme un tableau d'une colonne en format
Excel (ou Texte délimité si le nombre de lignes dépasse 65.000). La suppression
des fiches dont l'Email (ou le fax) figurent dans la liste s'effectue comme
suit:
. Insertion d'une entête à la liste (titre de la
zone email ou fax)
. Importation de la liste, c'est à dire création
d'une fiche par entrée de la liste contenant uniquement l'email (ou le fax)
. Tri de la base de données sur l'email (ou le fax)
. Repérage de tous les doublons (3ème option)
. Suppression des fiches repérées par la coche
blanche qui supprimera à la fois les fiches qui viennent d'être importées et les
fiches qui portent le même téléphone (ou fax).
Notons l'intérêt de Déclic pour le traitement des
doublons des grandes bases de données (plus de 65.000 fiches) pour lesquelles
l'utilisation d'Excel est impossible