Big Data – Analytics Reloaded: Erkenntnisse für den richtigen Zeitpunkt

Kaum ein Thema bewegt derzeit Medien und Unternehmen in gleichem Maße wie Big Data. Business-Intelligence-Lösungen, wie sie seit den 90er Jahren auch in vielen Banken und Sparkassen aufgebaut wurden, stehen im 21. Jahrhundert vor den Herausforderung, die neue Prozesse und Datenquellen in Internet und mobiler Welt für sie bereit halten.

Innovative Konzepte für die Speicherung und Auswertung solcher Daten sind gefordert. Wer sich frühzeitig mit diesen Themen beschäftigt, wird entlohnt mit Erkenntnissen über Kunden und Märkte, die sich zur Erhöhung der Profitabilität und zur präzisen Abschätzung von Risiken sehr sinnvoll einsetzen lassen.

Der Begriff Big Data suggeriert, dass die schiere Datenmenge hierbei das Hauptproblem darstellt. Tatsächlich liegt ein großer Teil der Herausforderungen von Big Data aber auch in der Unterschiedlichkeit und Unstrukturiertheit der verfügbaren Daten und in den Anforderungen an die Geschwindigkeit, mit der Analysen möglich sein müssen. In der englischsprachen Literatur wird der Unterschied zwischen Big Data und klassischer Business Intelligence (BI) daher auch gerne mit den drei V erklärt: Volume, Variety, Velocity.

Volume, Variety, Velocity
Das aktuelle Interesse an Big Data wird bei Banken und Sparkassen vor allem aus zwei klassischen Anwendungsgebieten für Analytics getrieben: Customer Relationship Management und Risikomanagement. In diesen Bereichen werden schon seit vielen Jahren Daten analysiert, um beispielsweise Kunden gezielter zu gewinnen und zu binden, Kundenbeziehungen profitabler zu gestalten, Kredit- und Bonitätsprüfung treffsicherer zu machen oder Hinweise auf Geldwäsche oder Betrug zu gewinnen. Doch viele dieser Analysen beschränken sich heute noch auf institutsintern verfügbare Kunden- und Vertragsdaten in Verbindung mit käuflichen externen Daten (z.B. Schufa). Nur selten werden Einzeltransaktionen (Zahlungen, Überweisungen, etc.) ausgewertet, meist weil schon hier das Datenvolumen die Laufzeiten problematisch lang macht, oft aber auch weil die passenden Analysewerkzeuge und das Wissen um die richtigen Verfahren fehlen.

Daten – der heilige Gral
Die am häufigsten genannte neue Datenquelle für Big Data sind fraglos die Sozialen Medien, die in den vergangenen zehn Jahren das Internet und zunehmend auch das reale Leben vieler Menschen verändert haben. Nicht mehr nur die ganz junge Generation gibt in der virtuellen Welt viele Informationen zu sich selbst preis. Diesen Datenschatz zu heben und mit Informationen aus internen Quellen zu veredeln, ist der heilige Gral vieler Analysten in diesen Tagen. Aber auch jenseits der Sozialen Medien liegen im Kontext des World Wide Web viele Daten in Content Management Systemen, Webseiten, Nachrichtenkanälen etc.. Aber auch aus der physikalischen Welt sind viele Text- und andere Dokumente vorhanden, deren automatisierter Analyse bisher die unzureichende Technologie im Wege stand.

Wohlstrukturierte Daten, wie man sie aus unternehmensinternen Applikationen wie ERP oder CRM kennt, bilden in Big Data Analytics eher die Ausnahme. Tatsächlich entstehen im Zeitalter von Facebook und Smartphones ständig neue Datenquellen, deren Umfang mittlerweile den der strukturierten Unternehmensdaten bei weitem übertrifft. Viele Datenquellen bieten dabei nur unwesentlich strukturierte Textformate.

Dokumentformate ändern sich
Zukünftig werden auch vermehrt Ton-, Bild- und andere Dokumentenformate für Analysen interessant werden. Heutige relationale Datenbanken, aber auch die herkömmlichen Analysewerkzeuge stoßen hier an ihre Grenzen, da sich die meisten dieser Daten auch nicht sinnvoll nachträglich strukturieren und in ein relationales Korsett zwängen lassen.

Trotz aller Hindernisse bei seiner Bergung liegt hier jedoch ein Datenschatz, dessen konsequente Auswertung den Erfolg eines Finanzdienstleisters nachhaltig steigern kann. Ein gerne angeführtes Beispiel ist die Sentimentanalyse, mittels derer Institute automatisiert Stimmungen in Foren, Blogs und Nachrichtenkanälen auswerten und so Hinweise auf die Schieflage eines Firmenkunden oder auch auf kursierende Kritik am eigenen Haus sammeln. In automatisierter Form entstehen so Frühwarnsysteme für das Risikomanagement und Marketing einer Bank.

Realtime Analytics
An diesem Beispiel werden auch einige weitere Anforderungen an heutige und zukünftige Analyselandschaften deutlich. Realtime Analytics ist das Zauberwort und meint zweierlei: Daten werden zum einen sofort nach ihrer Entstehung analysiert, und die Resultate führen zum anderen bei Bedarf auch sofort zu einer Reaktion. Die klassische Trennung von Analyse und Prozess verschwindet vielfach. Es entstehen Szenarien, in denen beide eng miteinander verwoben in einer Anwendung laufen. Die Analyse nimmt Daten direkt aus dem Prozess entgegen und steuert diesen ihrerseits auch unmittelbar, sofern die Daten hierfür Anlass geben. Solch hoch komplexe und automatisierte Prozesse erfordern selbstverständlich auch entsprechende Überwachung, damit es nicht zu Fehlsteuerungen kommt. Deren Ursachen können in Datenqualitätsproblemen, fehlerhafter Konfiguration der Analysen, aber auch schlicht in Änderungen der Umwelt (neue Verhaltensmuster, neue Konkurrenzprodukte etc.) liegen. Integrierte Big-Data-Lösungen müssen also nicht nur riesige Datenmengen in Echtzeit verarbeiten, sondern sich dabei auch noch selbst kontrollieren.


Abb.: Kerneigenschaften von Big-Data-Lösungen

Ein weiterer Aspekt, der Business-Intelligence-Professionals ein Umdenken abfordert, ist die Datenverarbeitung von der Quelle bis in die Analyse. Herkömmliche BI-Lösungen beinhalten als wesentliche Komponente eine ETL-Lösung (ETL = Extraction, Transformation & Load), deren Aufgabe darin besteht, die eintreffenden Daten aufzubereiten und zu integrieren. Eine der großen Herausforderungen von guten Big-Data-Architekturen ist, dass sie aufgrund von Struktur und Menge der Daten beim Import weitgehend ohne Transformation der Daten auskommen müssen. Manche Analysten gehen deswegen so weit, das Ende von ETL-Werkzeugen wie Informatica zu prognostizieren. Tatsächlich werden viele Transformationen, die lediglich der Performanceoptimierung geschuldet sind (Aufbau von Datenwürfeln, zusätzliche Aggregate, etc.), wegfallen, da die Ablage- und Zugriffsmechanismen von Big-Data-Lösungen bereits auf entsprechende Performance ausgelegt sind.

Es gibt jedoch auch in der Big-Data-Welt weiter gute Gründe für die Transformation von Daten auf dem Weg bis ins Reporting. Diese Anforderungen müssen jedoch anders umgesetzt werden, als dies heute üblich ist. Zum kleineren Teil werden sie nachgelagert nach dem Import als Hintergrundprozess zur Optimierung der Daten innerhalb der Big-Data-Lösung implementiert. Größtenteils werden sie jedoch auf den Zeitpunkt der Analyse verlegt, was hohe Ansprüche an Funktionalität und Benutzbarkeit der Frontendwerkzeuge, aber auch wiederum an die Big-Data-Lösung selbst stellt.

Der klassische Ansatz entfällt
Die Verarbeitung von Big Data innerhalb von Analyseapplikationen analog zu bisherigen BI-Anwendungen würde die kostspielige Übertragung von großen Datenmengen voraussetzen. Aus Performancegründen ist dieser klassische Ansatz also nicht mehr möglich. Die Konsequenz ist, dass die Analyselogik nah an die Daten, d.h. in die Big-Data-Lösung gebracht wird. Eine solche Architektur minimiert nicht nur den teuren Datentransfer zwischen Datenbank und Anwendung, sondern nutzt auch die Vorteile der Parallelisierung und der In-Memory-Datenhaltung innerhalb guter Big-Data-Lösungen. Konsequenterweise arbeiten Hersteller von Big-Data-Technologiekomponenten an Funktionen, die das Skripting erleichtern und so die Abbildung von Anwendungslogik innerhalb der Big-Data-Lösung ermöglichen.

Ein noch nicht vollständig gelöstes Problem stellt die Datenqualität bei Big Data dar. Anders als in klassischen BI-Architekturen, wo die Daten bereits beim Import innerhalb der ETL-Prozesse auf ihre Qualität hin geprüft und gegebenenfalls bereinigt werden, können solche Schritte in Big-Data-Lösungen größtenteils erst nachgelagert durchgeführt werden. Auch für diese Anwendungen werden integrierte, gekapselte Skriptfunktionen zur Laufzeit der Analyse wesentlicher Teil der Lösung sein. Was das Problem noch verstärkt, ist allerdings, dass viele Big-Data-Datenquellen schon von vorneherein mit schlechter Datenqualität einhergehen als man dies – trotz aller Klagen – von den strukturierten Unternehmensapplikationen wie ERP oder CRM gewohnt ist. Akademische Forschung und Hersteller sind hier noch gleichermaßen gefordert, intelligente Verfahren zum Datenqualitätsmanagement für Big Data bereitzustellen.

 

Autor: Dr. Marcus Dill

Dr. Marcus Dill berät internationale Konzerne und mittelständische Unternehmen verschiedener Branchen bei Entwurf und Umsetzung ihrer Strategien für Data Warehousing, Business Intelligence und Customer Relationship Management. In diesem Umfeld blickt er auf zwanzig Jahre Erfahrung als Softwareentwickler, Berater, Architekt und Projektleiter zurück. Als Autor publiziert Dill regelmäßig in angesehenen Journalen zu Themen aus seiner beruflichen Praxis sowie zu aktuellen Technologien und Trends in BI und CRM. Seit 2007 ist Dr. Dill Geschäftsführer beim Berater- und Analystenhaus mayato.

Internet: http://www.mayato.com