Adressen-Dubletten - doppelte Adressen

Q: Adressen-Dubletten - doppelte Adressen

Doppelte Einträge in Adresslisten und Datenbanken sind unvermeidlich. Wie aber sehen Dubletten (Duplikate) aus? Und was kann man dagegen tun?

Fragen? (Email)

Adressenlisten werden nicht selten aus unterschiedlichen Quellen zusammengestellt. Und selbst wenn alle Adressen aus der gleichen Quelle stammen, kann man sich sicher sein, dass einzelne Adressen dort doppelt und dreifach vorkommen.

Adressen-Dubletten können dabei unterschiedliche Ursachen haben:

Beim Zusammenfassen von Adressen aus unterschiedlichen Quellen kommt es fast zwangsläufig zu Dubletten, denn nur in den wenigsten Fällen werden die zusammenzufassenden Adresslisten überschneidungsfrei sein.
Unterschiedliche Mitarbeiter haben unterschiedliche Vorstellungen davon wie eine Adresse am besten zu erfassen ist, ob also beispielsweise der Begriff 'Straße' im Straßennamen ausgeschrieben werden soll oder nicht. Und selbst bei ein und dem selben Mitarbeiter können die erfassten Adressen ganz unterschiedlich aussehen. So werden beispielsweise unter Zeitdruck erfasste Adressen nur die nötigsten Angaben enthalten.
Ist das Programm mit dem die Adressen erfasst werden nicht flexibel genug, dann werden Adressen beispielsweise allein schon deswegen doppelt erfasst weil es bei diesem Programm nicht möglich ist zu einer Adresse mehr als einen Ansprechpartner zu hinterlegen.
Ist das Programm mit dem die Adressen erfasst werden nicht darauf ausgelegt Dubletten schon bei der Eingabe zu verhindern oder ist die hierfür in dem Programm vorgesehene Funktion nicht leistungsfähig genug, dann bekommt der Mitarbeiter der die neue Adresse erfassen will erst gar nicht mit, dass diese Adresse in der Adressliste bereits vorhanden ist.

Mehrfacheinträge in Adresslisten lassen sich so gut wie nicht verhindern. Umso wichtiger ist es, dass Adresslisten von Zeit zu Zeit nach doppelten Adressen durchsucht werden. Viele Lösungen die für dieses Problem angeboten werden oder die in Adressverwaltungsprogrammen dafür eingebaut sind lösen dieses Problem nur teilweise. Zu unterschiedlich können zwei an und für sich identische Adressen doch aussehen:

Der Vorname steht möglicherweise bei der einen Adresse vor dem Nachnamen und bei der anderen hinter dem Nachnamen.
Der Vorname und andere Adressbestandteile können abgekürzt sein.
Insbesondere bei Firmennamen sind womöglich einzelne Teile der Firmenbezeichnung nicht mit erfasst worden, beispielsweise wenn statt 'BMW Group' nur 'BMW' eingegeben wird.
Einzelne Buchstaben können fehlen, mit dem daneben stehenden Buchstaben vertauscht oder auch falsch erfasst worden sein, beispielsweise wenn ein 'i' anstelle eines 'j' eingegeben wird.
Die Groß- und Kleinschreibung kann abweichen. Beispielsweise wird bei Adressen die in Webformularen erfasst werden oft auf die Eingabe von Großbuchstaben verzichtet, so dass diese dann komplett aus Kleinbuchstaben bestehen.

Der Name 'Albert Einstein' könnte beispielsweise folgendermaßen erfasst worden sein:

(100%) Einstein Albert
(95%) A. Einstein
(98%) Albert Einssein
(87%) Abert Meinstein

Software die speziell für dieses Problem geschrieben worden ist löst dieses indem sie für den Grad der Übereinstimmung von zwei Worten einen Prozentwert errechnet. Bei dem vorstehenden Beispiel sind in den Klammern die Prozentwerte mit angegeben die die DataQualityTools dafür errechnen. Der Benutzer kann bei solchen Programmen in der Regel mit Hilfe eines Schwellwerts festlegen wie groß die Abweichungen zwischen zwei als Dubletten erkannten Adressen sein dürfen. Je niedriger dieser Schwellwert ist, je größer die Abweichungen zwischen zwei Adressen also sein dürfen, desto größer ist auch die Wahrscheinlichkeit, dass das Programm Treffer zurück liefert die eigentlich gar keine Dubletten sind. Im Idealfall kann der Benutzer das Ergebnis der Suche nach doppelten Adressen noch durchsehen und von Hand den ein oder anderen Treffer aus dem Ergebnis entfernen, bevor er die als doppelt erkannten Adressen dann aus seiner Adressliste heraus löschen lässt.

Zwei Programme die hierfür geeignet sind sind die DataQualityTools und der DedupeWizard:

Wie man den DedupeWizard für die Suche nach Dubletten innerhalb von einer Tabelle einsetzt können Sie in dem Artikel 'Doppelte Adressen in Excel Löschen' nachlesen.
Wie man mit Hilfe der DataQualityTools zwischen zwei Tabellen nach Dubletten sucht können Sie in dem Artikel 'Dubletten zwischen zwei Tabellen suchen in Access' nachlesen.