Zeitgesteuerte Dublettenbereinigung mit dem BatchDeduplicator

Bei Marketing-Kampagnen ist es meist ausreichend eine Dublettenbereinigung erst dann durchzuführen wenn die Adressliste für die Kampagne bereits zusammengestellt worden ist. Manchmal soll die Dublettenbereinigung aber in regelmäßigen Zeitabständen durchgeführt werden. Mit dem BatchDeduplicator ist das kein Problem.

Gehen Sie dazu folgendermaßen vor:

  1. Wenn Sie das nicht schon getan haben, dann laden Sie sich den BatchDeduplicator hier kostenlos herunter. Installieren Sie das Programm und fordern Sie eine Testfreischaltung an. Damit können Sie dann eine Woche lang ohne jede Einschränkung mit dem Programm arbeiten.
  2. Als erstes müssen wir ein neues Projekt anlegen und mit allen Angaben versehen die für die Dublettenbereinigung nötig sind. Dazu rufen wir die Projektverwaltung auf.
  3. Nach einem Klick auf die Schaltfläche 'neues Projekt anlegen' erscheint ein Dialog in dem zunächst ein Name für das neue Projekt angegeben werden muss. Nach einem Klick auf die Schaltfläche 'Weiter' ist der Projekttyp auszuwählen. Zur Auswahl stehen 'Abgleich innerhalb einer Tabelle', 'Abgleich zwischen zwei Tabellen', 'Mehrfachabgleich' und die 'Ausschussliste'. Wählen wir hier 'Abgleich innerhalb einer Tabelle'. Nach einem weiteren Klick auf die Schaltfläche 'Weiter' ist bei den Abgleichsfunktionen dann noch das Kriterium auszuwählen das für die Suche nach Dubletten verwendet werden soll, also beispielsweise die postalische Adresse oder die Telefonnummer. Wählen wir hier die postalische Adresse als Abgleichskriterium aus. Nach einem letzten Klick auf die Schaltfläche 'Weiter' und anschließend auf die Schaltfläche 'Fertigstellen' ruft das Programm dann automatisch 'Projekt bearbeiten' auf.
  4. Dort öffnen wir mit Hilfe der Schaltfläche 'Datei öffnen' die Datei mit den zu verarbeitenden Daten. Bei Datenbankservern (MS SQL Server, MySQL, Oracle, IBM DB2 oder PostgreSQL) ist stattdessen zunächst aus der Auswahlliste bei 'Format / Zugriff auf' der entsprechende Datenbankserver auszuwählen. Anschließend ist der Name des Datenbankservers einzugeben. Nach einem Klick auf die Schaltfläche 'mit dem Server verbinden' sind die Zugangsdaten einzugeben. Die Auswahl der gewünschten Datenbank und der Tabelle daraus erfolgt schließlich aus den entsprechenden Auswahllisten.
  5. Anschließend ist dem Programm anzugeben in welcher Spalte der Tabelle es welche Information findet, also beispielsweise in welcher Spalte die Straße steht oder der Name des Orts. Dazu ist aus den Auswahllisten mit den Spaltennamen aus der Tabelle jeweils dasjenige Datenfeld auszuwählen das am besten zu der Bezeichnung links daneben passt. Eine Vorbelegung dieser Feldzuordnung führt das Programm anhand der Spaltennamen automatisch durch. Nachdem wir über die postalische Adresse nach Dubletten suchen wollen müssen auch für alle Bestandteile der postalischen Adresse diejenigen Spalten aus der zu verarbeitenden Tabelle angegeben werden in denen diese Information gespeichert ist. Das Ergebnis der Feldzuordnung kann mit Hilfe der 'Kontrolle der Feldzuordnung', die sich auf der rechten Hälfte des Bildschirms befindet, kontrolliert werden.
  6. Mit der Schaltfläche 'Weiter' gelangen wir zu dem Dialog in dem die eigentliche Funktion konfiguriert wird. Hier ist allem voran der Schwellwert für die maximal zulässige Abweichung zwischen zwei Adressen anzugeben. Desweiteren können einzelne Bestandteile der postalischen Adresse von dem Abgleich ausgeschlossen werden. Dabei muss natürlich für jeden Bestandteil der postalischen Adresse der mit verglichen werden soll in der im vorangegangenen Schritt vorgenommenen Feldzuordnung auch eine Spalte aus der Tabelle angegeben werden.
  7. Schließlich ist dem Programm noch anzugeben wie es das Ergebnis des Abgleichs weiterverarbeiten soll, ob es die als doppelt erkannten Datensätze also beispielsweise direkt aus der Ursprungsdatei heraus löschen soll oder ob es diese dort nur markieren soll. Ein Klick auf die Schaltfläche 'Weiter' führt zu der Übersicht mit den zur Verfügung stehenden Weiterverarbeitungsfunktionen. Wählen wir hier das 'Standard-Löschprotokoll' und die 'Ergebnisdatei' aus. Für beide müssen wir jeweils einen Dateinamen angeben. Die Ergebnisdatei wird später dann die bereinigten Daten enthalten.
  8. Gut, damit sollte jetzt in der Übersicht mit den verfügbaren Projekten vor unserem Projekt ein grüner Haken stehen. Das Projekt ist also vollständig und kann ausgeführt werden. Starten können wir das Projekt mit Hilfe der Schaltfläche 'Projekt abarbeiten'. Damit wird es dann sofort ausgeführt.

    In unserem Fall soll das Projekt aber nicht sofort sondern jeden Montag um 20:00 Uhr automatisch ausgeführt werden. Um das Projekt entsprechend zu konfigurieren klicken wir auf die Schaltfläche 'Schließen' um die Projektverwaltung zu schließen und wählen anschließend die Funktion 'Aufgaben planen' aus. In der Zeile mit unserem Projekt klicken wir auf die Schaltfläche auf der zurzeit noch 'nicht ausführen' steht. In dem Dialog der daraufhin geöffnet wird wählen wir 'wöchentlich ausführen' und dazu 'ausführen am Montag um 20:00' aus. Vor dem Schließen der Funktion 'Aufgaben planen' fragt das Programm eventuell noch ob der BatchDeduplicator beim Start des Betriebssystems mit gestartet werden soll, da die geplanten Projekte nur dann auch automatisch gestartet und abgearbeitet werden können.

    Wenn Projekte vom BatchDeduplicator automatisch abgearbeitet werden, dann wird darüber ein Ausführungsprotokoll angelegt aus dem genau hervorgeht was wann mit dem Projekt gemacht worden ist. Dazu gehört ein Löschprotokoll und ein Backup, das automatisch angelegt wird, wenn Datensätze gelöscht oder geändert worden sind. Das Ausführungsprotokoll kann mit der entsprechenden Schaltfläche im Hauptfenster aufgerufen werden.

    Schließlich bietet der BatchDeduplicator noch die Möglichkeit den Benutzer per Email zu benachrichtigen wenn ein Projekt automatisch abgearbeitet worden ist. Diese Funktion kann über die entsprechende Schaltfläche im Hauptfenster konfiguriert werden.

Wie man den DeduplicationWizard für die Suche nach Dubletten innerhalb von einer Adressliste einsetzt können Sie in dem Artikel 'Dubletten suchen in Excel' nachlesen. Und wie man mit Hilfe der DataQualityTools zwischen zwei Tabellen nach Dubletten sucht können Sie in dem Artikel 'Dubletten zwischen zwei abellen suchen in Access' nachlesen.