Hierfür benötigen wir zunächst einmal das Projekt, das später über die Kommandozeile gestartet werden soll. Um dieses zu erstellen gehen Sie folgendermaßen vor:

  1. Wenn Sie das nicht schon getan haben, dann laden Sie sich den BatchDeduplicator hier kostenlos herunter. Installieren Sie das Programm und fordern Sie eine Testfreischaltung an. Damit können Sie dann eine Woche lang ohne jede Einschränkung mit dem Programm arbeiten.
  2. Als erstes müssen wir ein neues Projekt anlegen und mit allen Angaben versehen die für die Dublettenbereinigung nötig sind. Dazu rufen wir die Projektverwaltung auf.

  3. Nach einem Klick auf die Schaltfläche 'neues Projekt anlegen' ...



    ... erscheint ein Dialog in dem zunächst ein Name für das neue Projekt angegeben werden muss.



    Nach einem Klick auf die Schaltfläche 'Weiter' ist der Projekttyp auszuwählen. Zur Auswahl stehen 'Abgleich innerhalb einer Tabelle', 'Abgleich zwischen zwei Tabellen', 'Mehrfachabgleich' und 'Adressen prüfen'. Wählen wir hier 'Abgleich innerhalb einer Tabelle'.



    Nach einem weiteren Klick auf die Schaltfläche 'Weiter' ist bei den Abgleichsfunktionen dann noch das Kriterium auszuwählen das für die Suche nach Dubletten verwendet werden soll, also beispielsweise die postalische Adresse oder die Telefonnummer. Wählen wir hier die postalische Adresse als Abgleichskriterium aus.



    Nach einem letzten Klick auf die Schaltfläche 'Weiter' und anschließend auf die Schaltfläche 'Fertigstellen' ruft das Programm dann automatisch 'Projekt bearbeiten' auf.
  4. Dort öffnen wir mit Hilfe der Schaltfläche 'Datei öffnen' die Datei mit den zu verarbeitenden Daten.


    Bei Datenbankservern (MS SQL Server, MySQL, Oracle oder PostgreSQL) ist stattdessen zunächst aus der Auswahlliste bei 'Format / Zugriff auf' der entsprechende Datenbankserver auszuwählen. Anschließend ist der Name des Datenbankservers einzugeben. Nach einem Klick auf die Schaltfläche 'mit dem Server verbinden' sind die Zugangsdaten einzugeben. Die Auswahl der gewünschten Datenbank und der Tabelle daraus erfolgt schließlich aus den entsprechenden Auswahllisten.
  5. Anschließend ist dem Programm anzugeben in welcher Spalte der Tabelle es welche Information findet, also beispielsweise in welcher Spalte die Straße steht oder der Name des Orts. Dazu ist aus den Auswahllisten mit den Spaltennamen aus der Tabelle jeweils dasjenige Datenfeld auszuwählen das am besten zu der Bezeichnung links daneben passt.

    Feldzuordnung

    Eine Vorbelegung dieser Feldzuordnung führt das Programm anhand der Spaltennamen automatisch durch. Nachdem wir über die postalische Adresse nach Dubletten suchen wollen müssen auch für alle Bestandteile der postalischen Adresse diejenigen Spalten aus der zu verarbeitenden Tabelle angegeben werden in denen diese Information gespeichert ist. Das Ergebnis der Feldzuordnung kann mit Hilfe der 'Kontrolle der Feldzuordnung', die sich auf der rechten Hälfte des Bildschirms befindet, kontrolliert werden.
  6. Mit der Schaltfläche 'Weiter' gelangen wir zu dem Dialog in dem die eigentliche Funktion konfiguriert wird. Hier ist allem voran der Schwellwert für die maximal zulässige Abweichung zwischen zwei Adressen anzugeben.

    Übereinstimmungsfaktor

    Desweiteren können einzelne Bestandteile der postalischen Adresse von dem Abgleich ausgeschlossen werden. Dabei muss natürlich für jeden Bestandteil der postalischen Adresse der mit verglichen werden soll in der im vorangegangenen Schritt vorgenommenen Feldzuordnung auch eine Spalte aus der Tabelle angegeben werden.
  7. Schließlich ist dem Programm noch anzugeben wie es das Ergebnis des Abgleichs weiterverarbeiten soll, ob es die als doppelt erkannten Datensätze also beispielsweise direkt aus der Ursprungsdatei heraus löschen soll oder ob es diese dort nur markieren soll. Ein Klick auf die Schaltfläche 'Weiter' führt zu der Übersicht mit den zur Verfügung stehenden Weiterverarbeitungsfunktionen. Wählen wir hier das 'Standard-Löschprotokoll' und die 'Ergebnisdatei' aus.

    Weiterverarbeitungsfunktionen

    Für beide müssen wir jeweils einen Dateinamen angeben. Die Ergebnisdatei wird später dann die bereinigten Daten enthalten.
  8. Gut, damit sollte jetzt in der Übersicht mit den verfügbaren Projekten vor unserem Projekt ein grüner Haken stehen. Das Projekt ist also vollständig und kann ausgeführt werden. Starten können wir das Projekt mit Hilfe der Schaltfläche 'Projekt abarbeiten'. Damit wird es dann sofort ausgeführt.

    Projekt ausführen

Gut, damit haben wir schon einmal das Projekt, das über die Kommandozeile gestartet werden soll. Jetzt benötigen wir nur noch den Befehl für die Kommandozeile, um dieses Projekt dort zu starten:

  1. Schließen Sie dazu zunächst die Projektverwaltung. Rufen sie dann die Funktion 'Kommandozeilenparameter' aus dem Hauptmenü auf:

    Kommandozeilenparameter

  2. Wählen Sie dort das Projekt, das über die Kommandozeile gestartet werden soll aus. Klicken sie dann auf die Schaltfläche 'Befehl für den Start des BatchDeduplicators erzeugen':

    Kommandozeilenparameter erzeugen

  3. Der erzeugte Befehl sieht dann vermutlich ähnlich wie dieser hier aus:

    "C:\Program Files (x86)\DataQualityApps\BatchDeduplicator8\BatchDeduplicator.exe" -exec 100

Bei Bedarf können diesem Befehl noch die folgenden Parameter hinzugefügt werden:

  • -file1="<Dateiname>": Der mit diesem Parameter angegebene Dateiname ersetzt den Dateinamen der ersten Tabelle aus dem abzuarbeitenden Projekt. Die neue Datei / Tabelle muss dabei mindestens all jene Datenfelder enthalten, die auch in dem betreffenden Projekt verwendet werden.
  • -nobackup: Wird dieser Parameter mit angegeben, dann wird bei diesem Aufruf des Programms kein Backup der Datei erstellt, bevor diese verändert wird.
  • -nolog: Wird dieser Parameter mit angegeben, dann wird bei diesem Aufruf des Programms kein Protokoll erstellt.
  • -noemail: Wird dieser Parameter mit angegeben, dann wird bei diesem Aufruf des Programms keine Benachrichtigungsemail versendet.

Es ist natürlich bequem, wenn es die Möglichkeit gibt ein Projekt unbeaufsichtigt abarbeiten zu lassen. Wenn es dabei aber zu einem Problem kommt, dann möchte man darüber natürlich informiert werden. Wie man beim BatchDeduplicator eine Benachrichtigungsemail einrichtet können Sie in dem Artikel 'Eine Benachrichtigungsemail einrichten' nachlesen.