Big Data – Big Brother – Big Confusion: Die Datenquellen sprudeln

Wenn ein Thema zum Hype geworden ist, dann wird es sehr gerne zerredet, zerpflückt und vor allem so dargestellt, als habe es das schon immer gegeben. Da sagt sich leicht, man brauche „das Zeugs“ nicht, weil man das ja längst mache oder weil man bereits erfahren habe, dass das Ganze in eigenen Unternehmen nichts bringe. So hofft man, dass man den neuen Trend aussitzen kann. Er wird uns (hoffentlich) weder betreffen noch treffen.

Genau da sind wir mit „Big Data“ angekommen. Zugegeben, wie jedes andere Thema hat auch Big Data eine Vorgeschichte. In der Tat kam der Begriff „Big Data“ bereits in den 90er-Jahren auf. Zugegeben, einige der Big-Data-Technologien gibt es auch bereits seit Ende der 80er-Jahre wie beispielsweise spaltenorientierte Datenbanken. Zugegeben, Big Data ist keine Wunderwaffe („silver bullet“), die Unternehmen auf einmal eine Kristallkugel gibt, die Allwissenheit verschafft.

Insofern kommen wir zum Kern der Sache: Was ist und soll Big Data? Warum der Hype? Vor den Antworten auf diese Fragen möchte ich zuerst mit ein paar Missverständnissen aufräumen.

  • Viele meinen, Hadoop sei Big Data. Zu kurz gedacht! Denn Hadoop ist zwar eines der neuen technologischen Rahmenwerke für Big Data, aber Big Data geht auch ohne Hadoop. So kann eine traditionelle Oracle-10g-Datenbank 8 PB speichern und relationale Datenbanken können Text oder Bilder als große Binärobjekte speichern. Das heißt also auch ganz klar, Big Data geht u.U. auch mit relationalen Datenbanken, aber das Problem ist: Wie und in welcher Geschwindigkeit können wir diese Daten speichern und abfragen? Wenn wir hier an die Grenzen stoßen, dann kommen die „neuen“ Big-Data-Technologien ins Spiel.
  • Viele denken, Big Data meine In-Memory-Verarbeitung. Natürlich ist In-Memory-Verarbeitung eine der Technologien, die Big Data ermöglicht, aber es ist halt nur eine unter vielen. In der Tat nutzt Big Data eine Kombination aus Mathematik, Software- und Hardware-Methoden. Gerade eine solche Kombination von Methoden und Technologien aus unterschiedlichen Disziplinen macht Big Data aus.
  • Viele glauben, Big Data beschränke sich auf statische Daten à la Data-Warehouse-Auswertungen. Das stimmt nicht, denn zu Big Data gehören auch Datenströme, wie sie beispielsweise in Produktionsanlagen anfallen, wo mittels Sensoren die operativen Prozesse überwacht werden. Da geht es um Echtzeitdaten und Echtzeitanalysen. Hier stößt übrigens Hadoop an seine Grenzen, denn Hadoop kann nur Auswertungen im Batch fahren. Für solche Echtzeitanalysen von Datenströmen ist dagegen In-Memory-Verarbeitung gut geeignet.
  • Viele verstehen Big Data als eine Herausforderung in der Datenspeicherung. Das stimmt nicht, denn bei Big Data geht es um Analytik. Mittels Big Data will man Einsichten gewinnen, die man vorher nicht hatte, sodass bessere Entscheidungen getroffen und umgesetzt werden können. Big Data ist insofern eigentlich „Big-Data-Analytik“, also eine Fortsetzung und Fortschreibung von Business Intelligence und Analytik.
  • Viele setzen Big Data mit Social-Media-Daten gleich. Wieder zu kurz gedacht! Natürlich gehören Social-Media-Daten zu Big Data, aber Big Data beschreibt noch wesentlich mehr. Das macht man sich am besten klar, wenn man Daten klassifiziert in Transaktionsdaten, Interaktionsdaten und Beobachtungsdaten. Transaktionsdaten hatten wir schon immer, seit wir IT betreiben. Die Analyse von Transaktionsdaten allein kann schon ein Big-Data-Thema sein, wenn wir an Kassenbon-Datenauswertung denken (das ist dann der alte Wein in neuen Schläuchen, denn mit diesem Problem kämpfen wir schon lange). Die Analyse von Interaktionsdaten kennen wir auch schon seit einiger Zeit im Marketing, aber mit den Social-Media-Daten explodieren hier die Datenvolumen plus es kommen unstrukturierte Daten hinzu. Und jetzt kommt die Big-Data-Herausforderung: Es geht um gemeinsame Analysen von Transaktions- und Interaktionsdaten. Und es geht noch um mehr: Beobachtungsdaten. Das war bisher hauptsächlich eine Domäne von wissenschaftlich orientierten Analysen wie in Genf am CERN, wo die Beobachtungsdaten des Teilchenbeschleunigers Big Data liefern. In der Tat hat die Wissenschaft bei Big Data auch Pate gestanden, denn viele der Big-Data-Technologien wurden im wissenschaftlichen Bereich entwickelt. Wo haben wir aber im Unternehmen Beobachtungsdaten? Die liefern uns Smart Meter, Sensoren, RFID-Chips und viele andere Messgeräte-Typen. Eine relativ neue Klasse von Beobachtungsdaten sind die Lokalisierungs- und Navigationsdaten beispielsweise von Smartphones. Big Data heißt jetzt kombinierte Analyse von Transaktions-, Interaktions- und Beobachtungsdaten.
  • Viele meinen, Big Data spiele nur im Handel eine Rolle. Und noch mal zu kurz gedacht! Denn auch in vielen anderen Branchen spielt Big Data eine große Rolle. Beobachtungsdaten fallen per Smart Meter in der Versorgungsbranche an und per Sensoren in der Industrie, wo man jetzt beispielsweise im Rahmen von proaktiver Wartung Maschinen und Anlagen überwachen kann. Die Telekommunikation sitzt auf riesigen Datenmengen von Call Detail Records, Bewegungsdaten und weiteren Log-Daten. Finanzdienstleister überwachen Handel und Zahlungsverkehr. Dabei geht es um Fragen wie Aufdecken von Insiderhandel, Missbrauch und Geldwäsche. Das sind alles Herausforderungen, die man zwar schon lange kennt, die man aber heute mit Big-Data-Analytik besser denn je in den Griff bekommt. Nicht vergessen sollte man Big Data in der öffentlichen Verwaltung (Vorbeugen und Aufdecken von Verbrechen, Terrorismusbekämpfung und Transparenz in der Verwaltung sind hier einige der Herausforderungen), im Gesundheitswesen (Big-Data-Analytik hilft beispielsweise der Krebsforschung und hilft auch, Missbrauch im Gesundheitswesen wie falsche Abrechnungen aufzudecken), in der Politik (beispielsweise der erfolgreiche Einsatz von Big-Data-Analytik in Obamas Präsidentschaftskampagne) und im Sport (Analyse von Mannschaftsspielen). Als letztes Beispiel nenne ich noch den Einsatz von Big-Data-Analytik in Medien und Unterhaltung. So speichert beispielsweise der Münchner Browserspiele-Anbieter Travian Games die Clickstream-Daten aller Spieler in Hadoop, um mittels aus diesen Daten gewonnener Information den Kundenwert zu steigern und Kündigungen vorzubeugen.

Jetzt können wir zur Beantwortung unserer Fragen kommen, in dem wir Big Data definieren. Dabei folge ich der Definition von Gartner:
„Big data“ is high-volume, -velocity and -variety information assets that demand cost-effective, innovative forms of information processing for enhanced insight and decision making.

Die drei „Vs“ (volume, velocity, variety) haben wir ja bereits alle kennengelernt, aber die Definition geht darüber hinaus. Im Teil 2 der Definition geht es um kosteneffektive und innovative Wege zur Informationsverarbeitung. Hier geht es um die Verarbeitung und Speicherung von strukturierten und unstrukturierten Daten, um die Kombination von Daten unterschiedlicher Typen, aus unterschiedlichen Quellen und unterschiedlicher Produktionsgeschwindigkeit. Schließlich gehört hier noch die Analyse solcher kombinierten Daten dazu. Das sind neue Fähigkeiten, die man bisher so nicht hatte. Teil 3 der Definition ist das eigentliche Ziel von Big Data: Der Wert von Big Data besteht in Einsichten und Erkenntnissen, die man früher nicht hatte. Dazu gehört natürlich auch das Treffen und Umsetzen von Maßnahmen auf Basis dieser Entscheidungen.

Ich hoffe, ich konnte mit diesem Beitrag die „Big Confusion“ zu Big Data entwirren. Schließen möchte ich hier mit einem Tweet von Stephen Shelton (@sdsdev, 28. März):
Many Businesses fail to have analytics as its cultural core. This is why Big Data confuses many.

Bei Big Data geht es eben um Analytik und den Nutzen von Analytik zur Wertschöpfung im Unternehmen. Aber Analytik als Unternehmenskultur heißt nicht, den Daten und abgeleiteten Fakten blind zu folgen. Natürlich werden wir mehr und mehr von Daten getrieben sein, aber dabei dürfen Intuition, Instinkt und Kreativität nicht auf der Strecke bleiben. Diese Eigenschaften sind und bleiben weiterhin gefragt, wenn es um das Interpretieren der Daten und Ergebnisse geht. Da hilft der Rechenknecht und Statistiker nicht mehr weiter, aber er hilft, Fakten zu bekommen, da, wo man früher rein auf das Gefühl angewiesen war.

Im Einklang mit dem Datenschutz
Jetzt kommt zum Schluss noch ein großes ABER. Wollen wir als Verbraucher, Bürger und Menschen, dass Unternehmen und Staat wirklich alles über uns wissen? Wir sind doch mit Big Data längst bei Big Brother angekommen. Wo bleibt der Datenschutz, wo bleibt die Privatsphäre? Gerade die Tatsache, dass man bei Big-Data-Analytik unterschiedliche Quellen miteinander verbindet und im Kontext auswertet, verstößt gegen fundamentale Datenschutzgrundsätze. Erfreulicherweise werden wir alle als Verbraucher und Bürger immer sensitiver in Sachen Datenschutz und Privatsphäre. Das zwingt die Unternehmen zum Handeln.

Das Erste, was Unternehmen tun sollten, ist Mitarbeiterausbildung in Sachen Kundenrechte, Datenschutz, Security und Umgang mit Daten. Das gehört im Zeitalter von Big Data in das Programm einer Data Governance: Data Governance wird immer wichtiger. Kundendaten müssen mit Sensitivität behandelt werden. Dazu gehören im Unternehmen strikte Regeln zum Umgang und Nutzen von Daten, die kommuniziert, trainiert und im Endeffekt gelebt werden müssen. Dazu kommt, dass mit Big Data mehr und mehr Mitarbeiter mit Kundendaten in Berührung kommen. Hier haben die Unternehmen einen Bedarf zu decken. Die wenigsten tun es heute schon: Es gibt hier einen hohen Nachholbedarf.

Data Governance
Data Governance von Big Data erfordert weiterhin Kenntnis und Dokumentation darüber, welche Daten gesammelt werden, welche Daten gekauft werden, wer für welche Daten verantwortlich ist, wo die Quellen sind und wo die Daten genutzt werden. Das sind eigentlich ganz normale Aufgaben im Rahmen einer Data Governance, aber auch hier besteht in der Umsetzung vielfach Nachholbedarf.

Schließlich sollten die Unternehmen klar, deutlich und korrekt ihren Kunden mitteilen, welche Daten gesammelt werden und was damit gemacht wird. Eine solche Transparenz schafft Vertrauen und im Endeffekt sogar Wettbewerbsvorteile. Dazu sollten Kunden die Möglichkeit haben, selber zu bestimmen, welche Daten ein Unternehmen über sie sammeln kann. Es gibt ja bei den Smartphones beispielsweise einen Schalter, mit dem man die Lokalisierungsfunktion abschalten kann. Dann werden meine Lokalisierungsdaten nicht mehr eingesammelt. Nur sollten wir als Verbraucher dann auch diese Schalter nutzen, oder? Aber es muss hier gesagt werden, dass solche Schalter erst den Anfang zu wirklichem Schutz der Privatsphäre darstellen. Hier gibt es noch viel zu tun, um Big Brother auszuschalten.

Kommen wir zum Schluss: Big Data ist nur Hype? Wir werden in den meisten Branchen vor allem als kleineres Unternehmen Big Data aussitzen können? Ich glaube nicht, denn ganz einfach gesagt: Big Data ist da. Die Datenquellen sprudeln und werden mehr und mehr und immer heftiger sprudeln. Daran werden wir nichts ändern. Also müssen wir uns mit der neuen Welt des Big Data abfinden, uns arrangieren und damit leben. Dazu muss jedes Unternehmen seinen Weg finden und seine Strategie zu Big Data entwerfen. Auch wenn die Antwort zu Big Data heute heißt: „Wir warten noch ein Jahr“, dann haben Sie sich dem Thema gestellt und den ersten Schritt in Big Data gemacht. Beginnen Sie spätestens jetzt, sonst überrollt Sie der Mitbewerb, den Sie vielleicht noch gar nicht kennen. Denn wer hat vor zehn Jahren den Aufstieg und Erfolg von Amazon, eBay, Google und Facebook gesehen, wer den Wiederaufstieg von Apple?

 

Autor: Dr. Wolfgang Martin

Dr. Wolfgang Martin ist ein europäischer Experte und Analyst auf den Gebieten • Business Intelligence, Analytik, Big Data • Information Management, Information Governance • CRM (Customer Relationship Management) • Cloud Computing (PaaS, SaaS) Sein Spezialgebiet sind die Wechselwirkungen technologischer Innovation auf das Business und damit auf die Organisation, die Unternehmenskultur, die Businessarchitekturen und die Geschäftsprozesse. Er ist Mitglied im BBBT (Boulder BI Brain Trust) (www.BBBT.us), iBonD Partner(www.ibond.net), Research Advisor am Institut für Business Intelligence der Steinbeis Hochschule Berlin (www.i-bi.de) und Mitglied des CRM Expertenrates (http://www.crm-expert-site.de/expertenrat/main_expertenrat.cfm?site=rat). Vor der Gründung des Wolfgang MARTIN Teams in 2001 war Dr. Martin über fünf Jahre bei der META Group, zuletzt als Senior Vice President International Application Delivery Strategies.

E-Mail: wolfgang.martin@wolfgang-martin-team.net

Internet: http://www.wolfgang-martin-team.net