Nettoyage de données : comment supprimer des doublons dans Excel comme un pro

Les tableurs Excel utilisés en entreprise accumulent des lignes en double à chaque import, chaque copier-coller, chaque fusion de fichiers. La suppression de doublons dans Excel ne se résume pas à un clic sur un bouton du ruban. Selon la méthode choisie, les données sources sont modifiées de façon irréversible ou restent intactes. Le choix de l’approche conditionne la fiabilité de tout le nettoyage de données qui suit.

Pourquoi le bouton « Supprimer les doublons » pose un problème de traçabilité

Homme en télétravail utilisant Excel pour nettoyer des données et supprimer des entrées en double sur son ordinateur portable

La commande native d’Excel, accessible via l’onglet Données, détecte les lignes identiques sur une ou plusieurs colonnes et les supprime directement dans le tableau. L’opération est rapide, mais elle présente un défaut structurel : aucune trace des lignes supprimées n’est conservée.

Lire également : Camembert Excel : comment faire un graphique clair pour un rapport pro

Excel affiche un message indiquant le nombre de valeurs en double supprimées et le nombre de valeurs uniques restantes. Une fois la fenêtre fermée, il n’existe aucun moyen de vérifier quelles lignes ont été retirées, sauf à annuler immédiatement l’action (Ctrl+Z).

Pour un fichier de quelques dizaines de lignes, le risque reste limité. Sur un export CRM ou un fichier ERP de plusieurs milliers d’entrées, supprimer des doublons dans Excel sans sauvegarde préalable revient à modifier une base sans journal d’audit. Toute erreur de sélection de colonnes (oublier une colonne discriminante, par exemple) supprime des lignes qui n’étaient pas réellement des doublons.

A lire également : Transformer un tableau excel en base de données : étapes et astuces pour débutants

La bonne pratique minimale : travailler sur une copie du fichier, jamais sur l’original. La meilleure pratique : utiliser une méthode non destructive.

Mise en forme conditionnelle : repérer les doublons Excel avant de les supprimer

Vue aérienne d'un bureau avec clavier, souris et écran Excel affichant des doublons colorés dans une feuille de calcul

Avant toute suppression, visualiser les doublons permet de comprendre leur origine et d’éviter les faux positifs. La mise en forme conditionnelle d’Excel colore les cellules contenant des valeurs en double dans une colonne donnée.

Appliquer la règle sur une colonne

Sélectionnez la plage de cellules à analyser (une colonne entière ou une sélection précise). Dans l’onglet Accueil, cliquez sur Mise en forme conditionnelle, puis Règles de mise en surbrillance des cellules, puis Valeurs en double. Excel propose de colorer les doublons ou les valeurs uniques.

Cette approche a une limite : la détection porte sur une seule colonne à la fois. Deux lignes peuvent partager le même nom de client sans être des doublons si l’adresse ou la date diffèrent. Pour une détection multicritère, il faut combiner plusieurs colonnes dans une colonne auxiliaire (concaténation) ou passer à une formule NB.SI.ENS.

Utiliser NB.SI pour compter les occurrences

Ajoutez une colonne temporaire avec la formule =NB.SI(plage;cellule) appliquée à la colonne de référence. Chaque cellule affiche le nombre d’occurrences de sa valeur dans la plage. Toute valeur supérieure à 1 signale un doublon. Ce comptage permet de filtrer, trier et décider ligne par ligne avant de supprimer quoi que ce soit.

Fonction UNIQUE dans Excel 365 : dédoublonner sans toucher aux données sources

Depuis Excel 365, Microsoft met en avant les fonctions dynamiques, et UNIQUE() change la logique du nettoyage de données. Au lieu de supprimer des lignes dans le tableau d’origine, la fonction génère une liste de valeurs uniques dans une nouvelle plage.

La syntaxe de base est simple : =UNIQUE(plage) renvoie chaque valeur une seule fois. Le résultat se met à jour automatiquement quand les données sources changent. On ne parle plus de suppression de doublons, mais de dédoublonnage en sortie.

  • Les données d’origine restent intactes, ce qui élimine le risque de perte accidentelle de lignes
  • La liste filtrée se recalcule à chaque modification du tableau source, sans intervention manuelle
  • La fonction accepte un paramètre optionnel pour ne renvoyer que les valeurs apparaissant exactement une fois (les « vrais » uniques, pas les premiers d’un groupe de doublons)

Cette fonction n’est pas disponible dans les versions d’Excel antérieures à 365. Si vous utilisez Excel 2016 ou 2019, la méthode classique (bouton Supprimer les doublons ou formule NB.SI) reste la seule option intégrée.

Power Query : le pipeline de nettoyage réutilisable pour supprimer des doublons

Pour les fichiers volumineux ou les imports récurrents, Power Query offre un avantage décisif sur toutes les autres méthodes : chaque étape de nettoyage est enregistrée et rejouable.

Power Query (accessible via l’onglet Données, puis Obtenir et transformer) charge les données dans un éditeur séparé. La suppression des doublons s’y fait en deux clics : sélectionnez la ou les colonnes, clic droit, Supprimer les doublons. L’éditeur ajoute une étape nommée dans le panneau latéral.

Le vrai gain apparaît lors du prochain import. Quand le fichier source est mis à jour (nouvel export CRM, nouveau fichier fournisseur), il suffit d’actualiser la requête. Power Query réapplique toute la chaîne de nettoyage, y compris la suppression des doublons, sans manipulation manuelle.

  • La table d’origine n’est jamais modifiée (Power Query travaille sur une copie en mémoire)
  • L’historique des étapes joue le rôle de trace d’audit, consultable et modifiable à tout moment
  • Le nettoyage peut combiner suppression de doublons, correction de formats, remplacement de valeurs et fusion de tables en une seule requête

Les retours terrain divergent sur l’adoption de Power Query : les utilisateurs occasionnels d’Excel le trouvent moins intuitif que le bouton natif, tandis que les profils data ou contrôle de gestion le considèrent comme la bonne pratique standard pour tout nettoyage de données récurrent.

Validation de données : empêcher les doublons Excel dès la saisie

La prévention coûte moins cher que le nettoyage. Excel permet de bloquer la saisie d’une valeur déjà présente dans une colonne grâce à la validation de données combinée avec la fonction NB.SI.

Sélectionnez la plage de saisie, ouvrez Données, puis Validation des données. Dans le critère, choisissez « Personnalisé » et entrez une formule du type =NB.SI(plage;cellule)=1. Si l’utilisateur tente de saisir une valeur déjà existante, Excel affiche un message d’erreur et refuse l’entrée.

Cette méthode ne corrige pas les doublons existants. Elle intervient en amont pour garantir l’unicité des nouvelles saisies. Sur des fichiers partagés ou des formulaires de collecte, c’est un filet de sécurité qui réduit le volume de nettoyage à réaliser ensuite.

Le choix de la méthode dépend du contexte : le bouton natif convient pour un nettoyage ponctuel sur un petit fichier, la fonction UNIQUE pour un dédoublonnage non destructif dans Excel 365, Power Query pour un pipeline récurrent. Combiner validation de données en amont et Power Query en aval couvre la majorité des cas de figure sans jamais altérer les données sources.

Les plus lus