Dubletten mit geringen Abweichungen

Exakte Dubletten zu finden ist in der Regel kein Problem. Wenn es aber darum geht Dubletten mit geringen Abweichungen wie beispielsweise Tippfehlern, vertauschten Worten, Auslassungen und Ergänzungen zu finden dann wird die Sache schon schwieriger.

Daten und insbesondere Adressen werden in der Regel von Menschen erfasst. Und jeder Mensch hat dabei seinen eigenen Stil. Der eine ist es gewohnt, den Vornamen vor dem Nachnamen zu erfassen, also beispielsweise „Albert Einstein“. Für den anderen dagegen ist es selbstverständlich, dass der Nachname vor dem Vornamen erfasst wird, also „Einstein Albert“. Der nächste kürzt den Vornamen ab, weil die Daten so schneller erfasst werden können, also „A. Einstein“. Und wieder ein anderer vertippt sich und macht aus „Albert Einstein“ einen „Albert Einsein“.

Ähnlich sieht es bei Firmennamen aus: Ortsangaben wie das „Berlin“ bei „BioEnergy Berlin GmbH“ oder die Angabe des Geschäftsgegensands wie das „Computer“ bei „Apple Computer Inc.“ werden gerne weggelassen oder in abgewandelter Form erfasst. Auch die Rechtsform einer Firma wird nicht immer einheitlich erfasst. Mögliche Varianten wären hier beispielsweise „G.m.b.H.“ und „GmbH“. Und auch bei Straßennamen das gleiche Bild: Ob nun von der „First Avenue“ die Rede ist, von „First Av“ oder von „1st Av“, es ist immer die gleiche Straße gemeint. Trotz all der Unterschiede in der Schreibweise handelt es sich hier sehr wohl um Dubletten, wenn auch um Dubletten mit geringen Abweichungen. Und Dubletten verursachen nun einmal Kosten.

Was also tun? Wenn man seine Adressen in Textdateien erfasst, kommt man um eine speziell dafür konzipierte Lösung ohnehin nicht herum. Bei Datenbankservern wie MySQL, MariaDB oder dem SQL Server könnte man versuchen dieses Problem mit dem SOUNDEX-Befehl zu lösen. Dessen Möglichkeiten sind aber begrenzt. Mehr zu diesem Thema können Sie in dem Artikel „Unscharfe Dublettensuche mit SQLnachlesen. Und auch bei Excel sieht es nicht besser aus: Und auch bei Excel sieht es nicht besser aus: Auch dort gibt es nur eine Funktion um exakte Dubletten, also Dubletten die Zeichen für Zeichen übereinstimmen, zu finden. Dubletten mit Abweichungen bleiben bei dieser Funktion unberücksichtigt. Letztlich führt also kein Weg an Lösungen vorbei die speziell für dieses Problem geschaffen wurden, wie zum Beispiel die DataQualityTools und der DeduplicationWizard: