Datenmanagement: Korrekte Kundendaten sichern geschäftlichen Erfolg

Nichts ist so beständig wie der Wandel. Dieser Satz des Philosophen Heraklit gilt durchaus auch für Firmen- und Kundendaten. Studien belegen, dass rund ein Viertel der Adressdaten in deutschen Unternehmen veraltet oder fehlerhaft ist und dadurch jedes Jahr Kosten im mehrstelligen Millionen-Euro-Bereich verursacht werden. Ein systematisches und intelligentes Daten-Management vermeidet Fehler und kostenaufwendige Dubletten.

Etwa acht Millionen Umzüge und 840.000 Sterbefälle pro Jahr in Deutschland führen zu Adressänderungen, 370.000 Hochzeiten und 190.000 Scheidungen bringen oft Namenswechsel mit sich. Hinzu kommen jährlich Tausende Änderungen bei Straßennamen, Postleitzahlen und Orten. Doch auch bei den Firmen ist alles im Fluss: „Alle sieben Minuten zieht ein Unternehmen um, alle zehn Minuten wird eine Insolvenz angemeldet und alle zwölf Minuten fusionieren zwei Betriebe“, rechnet Jochen Bühler, Abteilungsleiter Bonität und Datenmanagement bei der Auskunftei Schufa in Wiesbaden, vor.

Wer große Datenbestände zu pflegen hat, ist deshalb auf ein effizientes Daten- und Risiko-Management und eine professionelle Datenpflege angewiesen. Neben der Fehlerfreiheit sollte vor allem auch sichergestellt werden, dass Datensätze nicht mehrfach vorhanden sind. Doch wie und wem fällt auf, dass es sich beispielsweise bei den Einträgen „Dr. John J. Farren jr.“ und „John J. Pharan jr. PhD“ um ein und dieselbe Person handelt? Und wie filtert man eine Dublette, die einmal die Bayerischen Motorenwerke in der Namenszeile führt und ein weiteres Mal nur das Akronym BMW? Werden z.B. bei Fusionen verschiedene Datenbestände zusammengeführt, potenzieren sich die Fehlerquellen. Ein rein mathematischer Vergleich der Datensätze reicht hier nicht aus.

Ein weiteres Problem: „Oft ist nicht einmal geklärt, welche Abteilung in einem Unternehmen überhaupt für die Qualität der Daten zuständig ist. Nicht selten sind unterschiedliche Abteilungen wie Controlling, IT oder Marketing verantwortlich“, so Jochen Bühler. Für besonders kritisch hält der Praktiker, wenn versteckte Dubletten z.B. bei Umzügen oder Umfirmierungen entstehen. Streuverluste und Mehrfachsendungen sind die Folge. Einen typischen Fall beschreibt Bühler so: „Stellen Sie sich vor, ein Kunde taucht aufgrund von unterschiedlichen Schreibweisen doppelt in der Datenbank auf und erhält einmal 13 Prozent Stammkundenrabatt und einmal 30 Prozent Neukundenrabatt.“

Ein ganzheitlicher Ansatz verknüpft mehrere Teilprozesse
Abhilfe schafft hier ein ganzheitlicher Ansatz mit den Teilprozessen Data Profiling, Data Cleansing und Monitoring. Das Data Profiling gibt nicht nur Aufschluss darüber, welche Datentypen in einer Kundendatenbank vorhanden sind, sondern lässt auch erkennen, wie valide und gebräuchlich diese Daten sind. Beim Data Cleansing werden die erkannten Probleme durch Anwendung verschiedener Algorithmen direkt behoben. Um dem ganzheitlichen Ansatz zur Qualitätssteigerung Rechnung zu tragen, bedarf es schließlich einer kontinuierlichen Überprüfung der Konsistenz, Korrektheit und Zuverlässigkeit der Daten. Neue Daten werden deshalb im Teilprozess „Monitoring“ vor der Speicherung in den operativen und analytischen Systemen überprüft. Und in bestimmten Zeitabständen findet eine Prüfung der gesamten Kundendaten statt.

Da die manuelle Bereinigung großer Datenmengen nicht in effizienter Weise durchgeführt werden kann, ist der Einsatz von Data-Cleansing-Werkzeugen zu empfehlen. Mit ihrer Hilfe kann teilweise auch der Prozess der Datenintegration automatisiert werden. Bei der Zusammenführung gleicher Datenbestände aus unterschiedlichen Datenquellen müssen diese Datensätze zunächst identifiziert werden. Dann ist zu entscheiden, welche Bestandteile der Dubletten in den bereinigten Datenbestand übernommen werden sollen. Denn ganz gleich, woher die Daten stammen – ob von CRM-Anwendungen, von Callcenter-Agents oder externen Datenlieferanten – weisen diese Quellen regelmäßig große Unterschiede in Inhalt, Format und ihrer syntaktischen und semantischen Gültigkeit auf. Dazu können die Daten noch unvollständig, ungenau oder veraltet sein oder in anderer Weise abweichen. Und es besteht zudem die Gefahr der ungewollten mehrfachen Aufnahme.

Menschliches Wissen ist gefragt
Um Dubletten in großen Kundendatenbanken zu bereinigen, versprechen vor allem jene Verfahren Erfolg, die computergestützte Schlussfolgerungen mit der menschlichen Intelligenz kombinieren. Denn wenn angesichts der zunehmenden Globalisierung Namen unterschiedlichster Nationalitäten Einzug in Kundendatenbanken halten, stoßen die üblichen mathematischen Prozeduren zur Dublettenerkennung und Adressvalidierung schnell an ihre Grenzen. Dies gilt auch, wenn weltweit operierende Konzerne es bei ihren Adressdaten mit verschiedenen landesspezifischen Schreibweisen zu tun haben. Um hier „saubere“ Daten zu bekommen, ist länderspezifisches Wissen gefragt. Es muss zum Beispiel nationale Besonderheiten der Adressierung, der Namen und deren Schreibweisen berücksichtigen. Neben den herkömmlichen mathematischen Verfahren kommen deshalb in der Datenqualitätssoftware zunehmend auch wissensbasierte Methoden zum Einsatz, die Einsichten der Computerlinguistik zur Spracherkennung und -synthese anwenden. Im Ergebnis wird eine deutlich höhere Erkennungsquote von Dubletten erreicht – über Länder- und Sprachgrenzen hinweg.

Herausforderung Firmenadressen
Wie viele Unternehmen und Gewerbetreibende gibt es in Deutschland? Die Schufa geht von rund vier Millionen wirtschaftsaktiven Unternehmen und Gewerbetreibenden aus. Dabei stützt sie sich auf eigene Analysen und Informationen aus der Schufa-Unternehmensdatenbank. Die Erfahrung bei dem Auskunftsdienstleister: Eine Suche nach Adressen und die Bereinigung von Dubletten gestaltet sich bei Firmen noch komplexer als bei Personenadressen. Mathematische, phonetische und statistische Vergleichsverfahren reichen nur bedingt aus, um korrekte Daten zu gewinnen. Neben dem Einsatz herkömmlicher Algorithmen kann eine Zerlegung und Interpretation der Firmenbezeichnungen für eine hohe Treffsicherheit sorgen und die automatische Verarbeitung vereinfachen.

Durch morphologische Analysen und Interpretationen lassen sich unterschiedliche Schreibweisen von Namen und Bezeichnungen auf eine linguistische Grundform reduzieren und werden dann als inhaltlich identisch erkannt. Durch die linguistische Interpretation und unterschiedliche Gewichtung einzelner Namensbestandteile wie etwa Rechtsformen oder Vor- und Nachnamen können geeignete Matching- und Bewertungsmodelle entwickelt werden. Diese erzielen dann höhere Trefferquoten, als sie mit herkömmlichen Verfahren möglich sind.

Für das Daten-Management von Gewerbekunden werden aufgrund der größeren Komplexität und der permanenten Veränderungen von Unternehmensdaten andere Ansätze und Tools als bei Endverbrauchern benötigt. Eine hohe Trefferquote erreicht man am besten durch den Einsatz von Suchtechnologien, die auch linguistische und kulturspezifische Besonderheiten erkennen und entsprechend gewichten können. Das bewährt sich vor allem auch dann, wenn ein Unternehmen internationale Kunden bedient.

Denn aufgrund unterschiedlicher Rechtschreibung und Aussprache, Abkürzungen, Akronyme, Ähnlichkeiten (z.B. Beecham und Beauchamp), Morphologie (z.B. Vandamme und Van Damme) oder Wortreihenfolgen (z.B. Chong Bung Li und Li Bung Chong) kann ein kennzeichnendes Namenselement in unterschiedlichen Schreibweisen auftreten. Um diese Übereinstimmungen dennoch zuverlässig herauszufiltern, setzen moderne Datenqualitätslösungen verschiedene Verfahren wie Wortbilder, Trigramme, exakte Zeichenfolgen, Akronyme, Schlüsselwörter, Matrix und Phonologie ein.

Angesichts dieser komplexen Problemstellung braucht die Gewährleistung einer hohen Datenqualität einige Zeit. Ziel ist deshalb meist nicht eine sofortige Komplettbereinigung sämtlicher vorhandenen Kundendaten, sondern vor allem eine stetige Verbesserung und die Vermeidung von Dubletten direkt bei der Datenerfassung nach dem Prinzip, beim ersten Mal gleich alles richtig zu machen („First Time Right“). Zusätzlich werden die Daten – falls nötig – mit Hilfe der eingesetzten Lösung direkt korrigiert, vervollständigt und standardisiert.

Autor: Holger Wandt

Holger Wandt ist seit 1991 für das niederländische Softwarehaus Human Inference tätig. Als Sprachwissenschaftler hat er viele Jahre an der Erfassung, Pflege und Qualität des Wissens gearbeitet, das die Produkte von Human Inference auszeichnet. In seiner heutigen Position als Principal Advisor ist er verantwortlich für alle wissensbezogenen Fragen zur Datenqualität. Zudem ist er als Experte zuständig für alle Aspekte der Standardisierung von Namen und Adressen auf nationaler und internationaler Ebene. Daneben ist Holger Wandt Studienleiter der Masterclass Data Quality Management an der Universität St. Gallen und an der Nyenrode Business-Universität sowie Dozent der linguistischen Fakultät an der Universität Utrecht.