Textanalytik – Durchblick im Web 2.0 und im Enterprise 2.0: Die neue Dimension an Daten

Die Nutzer von Facebook, MySpace, StudiVZ oder anderen Netzgemeinschaften („Social Web“) zählen nach Millionen. Ihre Anzahl wächst beständig. Dazu kommen die vielen, meist spezialisierten Blogs und Foren. Nicht zu vergessen sind Plattformen wie Twitter, die ein Miniblogging erlauben. Das unterstreicht die Attraktivität des Web 2.0, des Mitmach-Webs, bei dem jeder Surfer mitmachen und seine Meinungen, Stimmungen und Vorlieben mitteilen kann.

Der Marktforscher, der Produktmanager und jeder im Marketing sieht aber noch etwas ganz anderes: die neue Dimension an Daten über aktuelle und zukünftige Kunden, über Potenziale, Stimmungen und Trends im Markt.

Denn jeder Internaut kann jetzt im Web 2.0 auch seine persönlichen Daten mit allen anderen teilen. Das Teilen und Teilhabenlassen ist im Web 2.0 der große Renner. Mitunter meint man, man hat es in den Netzgemeinschaften mit „digitalen Exhibitionisten“ zu tun, so freizügig werden persönliche und ganz persönliche Daten eingestellt. Das ergibt für die Marketer in den Unternehmen einen wahren Schatz an Informationen, den es nur noch zu heben gilt.

Der gläserne Kunde
Vor einigen Jahren haben schon Unternehmen aus der Telekommunikation begonnen, Webdaten systematisch auszuwerten. Inzwischen sind nicht nur Banken und Versicherungen hinzugekommen, sondern auch Händler und Konsumgüterhersteller machen das – aber niemand spricht gerne darüber. Man will seinen Kunden nicht gerne sagen, dass man inzwischen eine nahezu gläserne Transparenz geschaffen hat. Der Nutzen dieser Transparenz durch Webdaten liegt auf der Hand: Ein Hersteller von Konsumgütern will beispielsweise wissen, wie Konsumenten sein Angebot und/oder das Angebot seiner Mitbewerber in den einschlägigen Blogs diskutieren. Oder eine Hotelkette interessiert sich für das elektronische Feedback ihrer Gäste und/oder für die Bewertungen der Mitbewerber. Alles wird möglich, wenn all diese Daten zugreifbar und auswertbar werden.

Mit dem „Staubsauger“ durchs Web
Als rstes braucht man dazu einen „Staubsauger“, der die relevanten Daten aus dem Web im wahrsten Sinne des Wortes absaugt. Das leisten heute die semantischen Web-Crawler. Das ist eine Technologie, die es erlaubt, alle öffentlichen Daten im Web zu lesen und zu extrahieren. Damit kein Webmaster das merkt und womöglich Gegenmaßnahmen ergreift, können sie auch bewusst langsam arbeiten, um einen menschlichen Leser vorzutäuschen. Dem Crawler muss man nur sagen, welche Informationen von welcher Webseite abgegriffen werden sollen. Das lässt sich bereits automatisieren. Im Rahmen einer Quellen-Identifikation lassen sich mit Suchbegriffen und auch komplexen semantischen Suchmustern die relevanten Webseiten und Blogs finden und auch extrahieren.

Heutige Crawler besitzen genügend Intelligence, um auch dynamische Webseiten abzugreifen. Wenn sich die Position von abzugreifenden Daten auf der Webseite ändert, dann wird das in gewissen Grenzen auch automatisch vom Crawler erkannt und nachgezogen. Wenn das nicht gelingt, wird das dem Crawler-Kontrollzentrum gemeldet, sodass ein menschlicher Eingriff die Situation schnellstens wieder bereinigen kann. Solche Crawler werden beispielsweise von Brainware, Fetch Technologies, Kapow Technologies, Lixto, TextTech und anderen angeboten. Der Einsatz solcher Crawler ist auch im B2B sehr sinnvoll, wenn es beispielsweise um Online-Preisvergleiche geht oder man im Rahmen von Unternehmensnetzen Informationen zwischen Portalen automatisiert austauschen will. Hier hat beispielsweise Brainware Speziallösungen für den Zahlungsverkehr entwickelt und Lixto für Lieferantenportale.

Webdaten richtig analysieren
So beschafft man sich die notwendigen Webdaten automatisiert und schnell. Dabei darf man allerdings gesetzliche Aspekte nicht vergessen. Aber wenn Daten nicht geschützt und öffentlich sind, verstößt man höchstens gegen die AGBs der Seiten, wenn man automatisch ausliest. Daten, die auf den Netzgemeinschaften als privat gekennzeichnet sind, darf man so natürlich nicht nutzen. Die juristischen Details wollen wir aber hier nicht weiter vertiefen. Das ist eine eigene Diskussion.

Jetzt kommt es auf die Analyse an. Die klassischen Verfahren aus Statistik und Data-Mining greifen hier aber zu kurz, da Webdaten in der Regel unstrukturiert, bestenfalls semistrukturiert sind. Die neuen Anforderungen, Webdaten zu analysieren, hat eine neue Klasse analytischer Werkzeuge und Verfahren in den Fokus des Managements gebracht: die Textanalytik („text analytics“). Hier werden linguistische Verfahren, Algorithmen von Suchmaschinen, Text-Mining und maschinelles Lernen zu hybriden Methoden und Werkzeugen kombiniert. Die Anforderungen im Web 2.0 an die Analysewerkzeuge sind hoch. In den sozialen Medien findet man viel Zynismus, Sarkasmus und Polemik. Dazu kommt eine semantische Armut in den 140-Zeichen-Tweets.

Da gut 80 Prozent aller Daten im Unternehmen nicht in Datenbanken gespeichert sind, sondern in Form von E-Mail und Dokumenten in unstrukturierter Form vorliegen, eignet sich Textanalytik nicht nur zur Analyse von Webdaten, sondern auch von Unternehmensdaten. Man findet ja meistens in den E-Mails und in den entsprechenden Dokumenten den Kontext, der zur richtigen Interpretation von strukturierten Informationen führt. Insofern leistet die traditionelle Business Intelligence mit OLAP, Statistik und Data-Mining das Erkennen des „Was“ im Unternehmen, während aus den Textdaten das „Wie“ gefolgert werden kann.

Textanalytik ist eine Erweiterung von Analytik, insbesondere von Data-Mining und Text-Mining, und bringt Analytik ins Content Management und ins World Wide Web.

Textanalytik meint sowohl die Technologie als auch den Prozess zur Wissensentdeckung in unstrukturierten Daten. Ziel von Textanalytik ist es in einem ersten Schritt, Entitäten (beispielsweise Namen, Daten, Orte, Bedingungen) und ihre Attribute sowie die Beziehungen, Konzepte und Stimmungen zwischen Entitäten trennscharf zu identifizieren. In einem zweiten Schritt lassen sich auf diesen Strukturen Klassifikationen aufbauen und visualisieren. Ein Beispiel hierzu ist die Identifikation von Meinungsmachern in sozialen Netzen.

Beispiel:
Nehmen wir eine fiktive Telefongesellschaft. Nehmen wir an, dass einer ihrer Mitbewerber einen aggressiven Familienplan anbietet. Der Kundenservice bekommt auf einmal Nachfragen zu diesem Mitbewerbsangebot. Wie bekommt man das als das Marketingteam mit? Schnell ist der Kundenservice überfordert. Bis zu zehn Prozent aller Anfragen drehen sich um dieses Mitbewerbsprodukt. Berge von Notizen türmen sich im Kundenservice, vielleicht sogar weltweit. Wenn jetzt die Telefongesellschaft eine Technologie hätte, um Notizen im Kundenservice regelmäßig auf auffällige neue Muster zu untersuchen, dann wäre dieser Angriff eines Mitbewerbers schnell entdeckt und das Marketing könnte rechtzeitig reagieren. Mehr noch, man könnte nicht nur interne Daten so kontinuierlich analysieren, sondern auch externe wie beispielsweise in sozialen Netzen, wo über neue innovative Technologien und Produkte gerne diskutiert wird.

Das Beispiel zeigt ein weiteres Einsatzgebiet von Textanalytik: Stimmungsanalysen. Automatische Stimmungsanalyse („Sentiment Analysis, Opinion Mining“) aus Webblogs, Diskussionsforen und Produktbewertungen setzen bereits führende europäische Marktforschungsunternehmen ein. Ziel ist es, im Rahmen der Online-Marktforschung automatisch Stimmungsbilder über Produkte und/oder Unternehmen ihrer Kunden zu erstellen wie beispielsweise zur Analyse von Meinungen zu bestimmten Hotelketten oder Hotels, zu Consumer-Produkten wie Waschmitteln oder über technische Produkte wie Mobiltelefone.

Der jeweilige Hersteller bekommt dabei nicht nur Stimmungsbilder zu seinen Produkten, sondern auch den Vergleich zu anderen Produkten von Wettbewerbern und die Kennzahlen zum Controlling der Effektivität und Effizienz von Marketing-Maßnahmen sowie Empfehlungen für bestimmte Marketingmaßnahmen. Gerade die Möglichkeiten von multilingualen Analysen erlauben heute auch globale Analysen, beispielsweise darüber, wie eine Marke in verschiedenen Ländern wahrgenommen wird.


Abbildung:
Der Textanalytik-Prozess zur Modellbildung beginnt mit der Datenbereitstellung, die über dynamische, serviceorientierte Datenzugriffe auf alle verfügbaren Datenquellen per Datenintegrationsplattform erfolgen sollte. Das (sehr) große Datenvolumen erfordert eine hohe Performanz und Skalierbarkeit der Algorithmen sowie die Handhabung von bis zu einigen  Tausend von Variablen. Die Modellnutzung erfolgt idealerweise durch die Einbettung des abgeleiteten Textanalytik-Modells mittels einer Regelmaschine (Business Rules Management System) in die relevanten Geschäftsprozesse. Das ist dann besonders schnell und flexibel möglich, wenn eine serviceorientierte Architektur vorliegt. So erhalten wir durch Textanalytik angereicherte intelligente Prozesse. Beispielsweise kann jetzt ein Kunde einem sozialen Profil zugeordnet werden und so eine sehr gezielte Kaufempfehlung ausgesprochen werden.

Automatische Stimmungsbeobachtung spielt auch in der Pharmaindustrie eine Rolle, unter anderem zur Stimmungsanalyse zu neuen Medikamenten, auch zur Wettbewerbsbeobachtung und zum Monitoring des Ansehens eines Pharmaunternehmens selbst. Im Finanzbereich wird automatische Stimmungsanalyse eingesetzt, um in Texten ausgedrückte Stimmungen/Meinungen zu bestimmten Wertpapieren/Aktien automatisiert zu erkennen. Gute/schlechte Meinungen entsprechen dann beispielsweise Kaufs- bzw. Verkaufsempfehlungen. Stimmungsanalysen werden auch schon in der Politik angewendet, beispielsweise 2008 im Präsidentschaftswahlkampf in den USA.

Textanalytik wie jede Analytik sollte stets mit einem Performance Management verbunden sein ganz im Sinne des bekannten Leitsatzes: Man kann nur managen, was man auch messen kann. Benötigt werden unter anderem Metriken zur Berechnung der Relevanz von Quellen und der Vernetzung von Quellen, Scorecards zum Visualisieren und Verdichten der Monitoring-Ergebnisse und schließlich auch ein Reporting, insbesondere ein Ausnahme-Reporting, um automatisch Auffälligkeiten im Web 2.0 wie einen Anstieg von Tags, von Autoren und von Threads anzuzeigen.

Wer bietet Textanalytik an?
Zu den Anbietern von Textanalytik gehören einerseits einige der Großen im Business Intelligence wie IBM-SPSS, SAS Institute und SAP Business Objects. Auch der Dokumentenmanagement-Anbieter Opentext bewegt sich über die Technologie in Richtung Textanalytik. Andererseits haben sich bereits Anbieter wie Attensity, Basis Technology, Clarabridge, Clear Forest und Lexalytics global einen Namen gemacht. Dabei hat sich insbesondere Attensity einen starken Arm in Europa geschaffen und vor wenigen Wochen die Attensity Europe aus den Zukäufen von Empolis (Spin-off der Universität Kaiserslautern) und Living-e AG (Spin-off der Universitäten Karlsruhe) gebildet. Auch sind einige deutsche, französische und italienische Anbieter schon gut im Geschäft wie Expert System (Modena), Rapid-I (Spin-off der Universität Dortmund), TextTech (Spin-off der Universität Leipzig) oder die Temis Groupe (Paris).

Auch wenn die Textanalytik-Lösungen beispielsweise von IBM oder SAS Institute dem Namen nach als Komplettlösungen daherkommen, heißt das nicht, dass diese „Produkte“ out of the box einsatzbereit sind. Textanalytik stellt im Moment ein arbeitsintensives und sehr lohnendes Feld für Berater dar.

Beratung tut gut
Eine individuelle Beratung ist notwendig, bis einerseits die Unternehmen entsprechende Kenntnisse aufgebaut haben und andererseits die Hersteller ihre Tools so weit standardisiert und parametrisiert haben, dass die Anwender damit aus vordefinierten Bausteinen bestimmte Klassen von Lösungen erstellen können. Zudem stellt sich auch in der Textanalytik ein ähnliches Problem wie im Data-Mining: Die Interpretation der Ergebnisse erfordert ein tiefes Fachwissen. Denn mittels mathematischer Verfahren gefundene Strukturen und Beziehungen sind zwar faktisch richtig, aber solche Fakten müssen nicht unbedingt etwas mit der realen Welt zu tun haben. Das gilt ganz besonders für gefundene Fakten auf Basis von Webdaten, denn Bewertungen können aus Freundschaft erfolgt sein, Meinungen in Blogs können manipuliert und Profile in sozialen Netzen auch frei erfunden sein. Daher ist es ganz wichtig, die durch Textanalytik gefundenen Fakten als Hypothesen auf Plausibilität zu testen. Das ist heute noch in den meisten Fällen dem Menschen/Berater vorbehalten.

Beratung ist aber auch deshalb notwendig, weil wir mit Textanalytik Neuland betreten. Es fehlen Best Practices für die Prozesse und die Governance. Wie werden beispielsweise die Webdaten in die bestehenden Daten integriert? Wie gelangen die relevanten Ergebnisse von Textanalytik an die richtigen Personen im Unternehmen? Und Kernfragen, wie man auf bestimmte gefundene Muster und Strukturen reagieren soll, lassen sich heute in manchen Fällen noch gar nicht beantworten. Hier müssen wir erst noch eine ganze Menge lernen.

Autor: Dr. Wolfgang Martin

Dr. Wolfgang Martin ist ein europäischer Experte und Analyst auf den Gebieten • Business Intelligence, Analytik, Big Data • Information Management, Information Governance • CRM (Customer Relationship Management) • Cloud Computing (PaaS, SaaS) Sein Spezialgebiet sind die Wechselwirkungen technologischer Innovation auf das Business und damit auf die Organisation, die Unternehmenskultur, die Businessarchitekturen und die Geschäftsprozesse. Er ist Mitglied im BBBT (Boulder BI Brain Trust) (www.BBBT.us), iBonD Partner(www.ibond.net), Research Advisor am Institut für Business Intelligence der Steinbeis Hochschule Berlin (www.i-bi.de) und Mitglied des CRM Expertenrates (http://www.crm-expert-site.de/expertenrat/main_expertenrat.cfm?site=rat). Vor der Gründung des Wolfgang MARTIN Teams in 2001 war Dr. Martin über fünf Jahre bei der META Group, zuletzt als Senior Vice President International Application Delivery Strategies.

E-Mail: wolfgang.martin@wolfgang-martin-team.net

Internet: http://www.wolfgang-martin-team.net