Eine Schritt-für-Schritt-Anleitung - kostenlose Testversion verfügbar

Intelligente Suche nach doppelten Adressen in einer Excel-Tabelle

 

Excel selbst enthält eine Funktion für die Suche nach Duplikaten. Wenn die zu suchenden Dublikate aber nicht exakt, also Zeichen für Zeichen übereinstimmen, dann stößt diese Funktion schnell an Ihre Grenzen:

  • Tippfehler
  • Abweichungen in der Schreibweise
  • Auslassungen und Ergänzungen
  • vertauschte Worte
  • Abkürzungen
  • Kosenamen / Spitznamen

Nichts hiervon wird von der bordeigenen Funktion von Excel berücksichtigt. Treffer wie die folgenden, wie sie insbesondere in Adresslisten vorkommen, werden von dieser Funktion nicht gefunden:

Excel, doppelte Adressen

Um diese doppelten Adressen (Adress-Dubletten) in einer Excel-Tabelle komfortabel und ohne großen Aufwand zu löschen gehen Sie am besten folgendermaßen vor:

  1. Wenn Sie das nicht schon getan haben, dann laden Sie sich den DedupeWizard hier kostenlos herunter. Installieren Sie das Programm und fordern Sie eine Testfreischaltung an. Damit können Sie dann eine Woche lang ohne jede Einschränkung mit dem Programm arbeiten.
  2. Starten Sie den DedupeWizard und rufen Sie dort die Funktion "Dublettenbereinigung in einer Tabelle" auf:

    Abgleich in einer Tabelle

  3. Wählen Sie als Kriterium für die Suche nach Dubletten die "postalische Adresse" und klicken Sie anschließend auf "Weiter":

    Abgleichskriterium

  4. Im nächsten Schritt wählen Sie die zu verarbeitende Excel-Datei aus:

    Dateiauswahl

  5. Anschließend werden Sie zu einem Dialog weiter geleitet in dem Sie dem Programm angeben in welcher Spalte der Excel-Tabelle es welche Information findet. Diese Zuordnung hat das Programm für uns bereits so weit als möglich anhand der Spaltenüberschriften vorgenommen. Beispielsweise enthält die Spalte "Street" in unserer Tabelle die Straße:


    Feldzuordnung
  6. Im nächsten Dialog können wir dem Programm noch angeben welche Adressbestandteile mit verglichen werden sollen, normalerweise alle. Und wir können angeben wie groß der errechnete Übereinstimmungsfaktor zwischen zwei Adressen sein muss, damit diese im Ergebnis auftauchen. In unserem Beispiel wird für den Übereinstimmungsfaktor ein Schwellwert von "70%" verwendet:

    Übereinstimmungsfaktor
  7. Nach einem weiteren Klick auf "Weiter" werden dann die Adressdaten  verarbeitet. Schon nach kurzer Zeit präsentiert das Programm eine Zusammenfassung des Ergebnisses:

    Abgleichsergebnis
  8. Anschließend werden wir zu einer Ansicht des Abgleichsergebnisses in Form einer Tabelle geleitet. Dort können wir noch Änderungen an dem Ergebnis vornehmen, indem wir in der Spalte "löschen" das rote Kreuz entweder entfernen oder es auf eine andere Adresse in der Gruppe ändern:

    Excel, doppelte Adressen

  9. Sobald wir mit dem Ergebnis zufrieden sind, können wir das Ergebnis im letzten Schritt entsprechend unseren Bedürfnissen ausgeben oder verarbeiten lassen. Neben einem Löschprotokoll, das ausgedruckt werden kann, können die doppelten Adressen (Adress-Dubletten) direkt in der Ursprungstabelle gelöscht werden. Klicken Sie dazu auf die Schaltfläche 'in der Ursprungstabelle löschen':

    in der Ursprungstabelle löschen

    Hinweis: Vor dem Löschen der als doppelt identifizierten Adressen (Adress-Dubletten) aus der Tabelle mit den zu verarbeitenden Daten sollte von dieser Datei zur Sicherheit eine Kopie angefertigt werden.
  10. Alternativ dazu können die bereinigten Adressdaten auch in eine neue Datei geschrieben werden. Klicken Sie dazu auf die Schaltfläche 'Ergebnisdatei':

    Ergebnisdatei

    Als Format für die zu erstellende Adressliste stehen Excel und CSV / Textdatei zur Verfügung, wobei bei der Textdatei zwischen einer Textdatei, die den Zeichensatz des Computers auf dem das Programm läuft verwendet und einer Textdatei die UTF-8 (Unicode) verwendet unterschieden wird. Unicode wiederum ist ein universaler sprachunabhängiger Zeichensatz wie ihn auch Excel verwendet:

    Ergebnisdatei, Dateiformat

    Wählen wir hier Excel. Für die Ergebnisdatei muss dann noch ein Dateiname angegeben werden:

    Ergebnisdatei, Dateiname

    Mit einem Klick auf die Schaltfläche 'Datei erstellen' wird diese dann erstellt. Das Ergebnis ist eine Adressliste, die genau die gleichen Daten enthält wie die Ursprungstabelle, nachdem dort die als doppelt erkannten Adressen (Adress-Dubletten) heraus gelöscht worden sind. In diesem Fall kann natürlich darauf verzichtet werden eine Sicherheitskopie der Datei mit den zu verarbeitenden Daten zu erstellen, da diese ja nicht verändert wird.
  11. Schließlich bietet der DedupeWizard noch die Möglichkeit eine Archivdatei zu erstellen:

    Archivdatei

    Diese ist der Ergebnisdatei ähnlich, enthält aber nicht die bereinigten Adressdaten , sondern all jene Datensätze, die beim Bereinigen der Ursprungstabelle gelöscht werden würden, also letztlich die doppelten Adressen (Adress-Dubletten). Die Ergebnisdatei und die Archivdatei zusammen enthalten dabei alle Datensätze der Ursprungstabelle. Als Dateiformat für diese Adressliste sind auch hier wieder Excel und eine Textdatei möglich.
  12. Mehr Möglichkeiten das Ergebnis weiter zu verarbeiten als der DedupeWizard bieten die DataQualityTools. Unter anderem können dort die Treffer markiert werden. Oder es können anhand des Abgleichsergebnisses Daten von dem einen Datensatz aus der Dublettengruppe auf den anderen übertragen werden, um diesen so zu vervollständigen. Eine vollständige Übersicht darüber finden Sie hier.