Data Mining ohne Spezialistenengpass

Aus den USA kommt eine neue Herangehensweise an das Thema Data Mining. Auf der Basis von mathematischen Forschungsergebnissen entwickelte der Softwarehersteller KXEN eine Anwendung, mit der sich die Schritte des klassischen Data Mining – Modellbildung, Test, Validierung – in kürzerer Zeit mit weniger Experten-Know-how ausführen lassen. Damit sollen komplexe Untersuchungen von Datenstrukturen in höherer Frequenz ermöglicht und der Ressourcenengpass bei Spezialisten überwunden werden.

Das Datenvolumen in Unternehmen ist seit Ende der neunziger Jahre überproportional gewachsen. Einige Terabyte und
aufwärts gelten heute als Standard, ebenso wie die durchschnittlich jährliche Verdoppelung der Datenmenge. Entscheidend bei der Verwandlung von Daten in entscheidungsrelevante Information sind jedoch Werkzeuge, mit
denen sich die Datenbestände nach Mustern analysieren lassen. Data-Mining-Tools suchen dabei nicht nach dem Offensichtlichen. Vielmehr versuchen sie, nicht-triviale Muster, die sich im Vorfeld der Analyse nicht durch Vermutungen
voraussetzen lassen, herauszufinden. Der Flaschenhals in der effektiveren Nutzung der aufwändig gesammelten und kostenintensiv in Data Warehouses verstauten Daten lag bisher in den begrenzten Ressourcen an akademisch ausgebildeten Statistikspezialisten und dem mit der Modellbildung, Validierung und Hypothesenfindung verbundenen Zeitaufwand. Erfahrungsgemäß haben Unternehmen wie Telcos, Banken, Airlines oder Versicherungen jedoch einen jährlichen Bedarf an mehreren hundert prädiktiven Datenmodellen.

Mischung aus Qualität und Robustheit

Die Herangehensweise des aus San Francisco stammenden Anbieters KXEN soll zur Überwindung des Flaschenhalses
beitragen. Beim allgemeinen „Lass-Dich-überraschen“-Prinzip des Data Mining muss gewährleistet sein, dass sich die Modelle in der Tat als valide und robust erweisen, also nicht nur auf Stichprobendaten anwendbar sind. Dem im herkömmlichen Data Mining sehr zeitintensiven Validierungsprozess der frischentwickelten Modelle setzt das KXEN Framework eine andere Strategie entgegen. Mithilfe entsprechender Indikatoren wird die Qualität des Modells auch bei veränderten Datenstrukturen bewertet. Unterschreitet das Ergebnis einen Schwellenwert, muss ein neues Modell gebaut werden. Basis dafür ist die zweite theoretische Grundlage der Software, die Structured Risc Minimization. „Wir gehen nach
Vapnik davon aus, dass das bestmögliche Modell ein Kompromiss zwischen Qualität und Robustheit ist“, fasst Heiko
Witfeld, EMEA Country Manager D A CH bei KXEN, den Ansatz zusammen. Angesichts stark wechselhafter Datenstrukturen – beispielsweise durch nationale Unterschiede oder ein verändertes Gleichgewicht zwischen männlichen und weiblichen
Kunden – können selbst die qualitativ hochwertigsten Modelle binnen kürzester Zeit nutzlos werden.
Ein weiteres Unterscheidungsmerkmal des analytischen Frameworks ist der Umgang mit dem Datenmaterial. Traditionell
gilt Datenvorbereitung als langwierig und zeitaufwändig. Extreme Data Mining fängt diesen Aufgabenbereich ab. Die
Software organisiert das Handling von Fehlwerten, Ausreißern und Inkonsistenzen.

Mit diesen Werten wird nicht, wie klassisch üblich, der Mittelwert gebildet. Grundannahme ist vielmehr, dass auch Fehlwerte analytische Relevanz besitzen – beispielsweise wenn Alter oder Verdienst nicht angegeben wurden. Hinzu kommt, dass der Anwender nicht selbst aus Tausenden von Variablen die geeigneten „herauspicken“ muss.
Ebenso wenig ist es notwendig, die Eigenschaften der Variablen abzustimmen.

Als Grundlage benötigt das analytische Framework ein bereits bestehendes Data-Warehouse-System, aus dem zum Beispiel via ODBC (Open DataBase Connectivity) sogenannte analysefähige Datensätze (ADS) zur Weiterbearbeitung generiert werden können. Die Daten werden dabei nicht doppelt gespeichert, sondern an ihrem Ursprungsort belassen und lediglich ausgewertet.
Die KXEN-Idee besteht darin, das Data Mining zu „demokratisieren“ und den Mitarbeitern und Entscheidern in den Fachabteilungen wie Marketing, Service oder Vertrieb ein Werkzeug zur Verfügung zu stellen, das ohne profundes Statistik- und Informatikwissen zeitnahe Ergebnisse liefert. Per Mausklick wird ausgewählt, ob eine prädiktive Regression, eine Segmentierung, ein Forecasting oder eine Warenkorbanalyse durchgeführt werden soll.
Der Anwender muss nicht mehr entscheiden, welche statistischen Verfahren zu diesem Zweck angewendet werden.
Erfahrungsgemäß lassen sich mit KXEN-Framework Modelle, deren Entwicklung bisher mehrere Tage bis Wochen dauerte, in wenigen Stunden erstellen. Eine Begrenzung der Datenvolumen und Variablen gibt es nicht. So nimmt ein Modell für eine Marketingkampagne mit einer Million Kunden und 220 Variablen
rund 13 Minuten in Anspruch.

Autorin: Daniela Hoffmann

ist freie IT-Fachjournalistin in Berlin