Schlankheitskur fürs Data Warehouse: Datennutzung, aber richtig

Viele Unternehmen investieren seit Jahren in den Aufbau von Data Warehouses (DWHs) und haben so gewaltige Mengen an Daten angesammelt. Schlechte Performance und hohe Betriebskosten – nicht selten im sechs- bis siebenstelligen Eurobereich – sind meist die Folge. Dabei verlieren die allermeisten Daten sehr schnell an Wert, da sie nicht mehr oder nur noch sporadisch genutzt werden. So entsteht bei wachsenden DWHs die Situation, dass der Anteil werthaltiger Daten abnimmt, deren Speicherung aber immer teurer wird und außerdem Lade- und Antwortzeiten steigen.

Die Last alternder Daten in einem DWH kann durch ein modernes Information Lifecycle Management effektiv reduziert werden – durch Einsatz neuer Technologien, vor allem aber durch systematisches und periodisches Entsorgen unbenutzter Daten.

Operative Anwendungen kommen oftmals mit nur einer begrenzten Historie von Daten aus. Ältere Daten aus diesem Umfeld können sehr schnell gelöscht oder archiviert werden. Nicht so im Falle analytischer Anwendungen: viele Reports und tiefer gehende Analysen (z.B. Data Mining) benötigen oft historische Daten als Vergleichswert oder als Basis zur Ermittlung von Trends. Aufgrund des Ad-hoc-Charakters von Datenanalysen ist oftmals schwer vorherzusagen, wie lange und wie oft bestimmte Daten benötigt werden. In einem zugrundeliegenden DWH fällt die Entscheidung, Daten zu löschen oder zu archivieren, daher meist schwer. Durch fortgesetzte Beladung mit weiteren Daten ohne gleichzeitige Entsorgung alter Daten wächst so manches DWH um mehrere Terabyte pro Jahr.

Bei vielen Firmen ist längst der Punkt erreicht, an dem die Risiken und Nebenwirkungen dieses ungebremsten Wachstums sichtbar werden. Denn trotz immer günstiger werdender Hardware verursachen die überflüssigen Pfunde des DWH erheblich Aufwand im Datenmanagement: Backups, Reorganisationen, Umsetzungs- und Bereinigungsjobs, Indexneuaufbauten usw. werden aufwendiger, dauern länger und binden mehr Personal. Experten gehen davon aus, dass ein zusätzliches Terabyte Speichervolumen jährliche Gesamtkosten von circa 200.000 Euro verursacht – mit den Kosten für Datenmanagement als Löwenanteil. Grund genug für viele IT-Entscheider, über die Möglichkeiten einer Verschlankung ihres Data Warehouse nachzudenken.

Datenmanagement dauert immer länger
Aber auch funktional sind die Auswirkungen hohen Datenvolumens meist für jeden zu spüren: Beladungen dauern länger, Anwender müssen morgens oder am Monatsanfang länger auf ihre Daten warten, vor allem aber wird das System bei Abfragen und Reports spürbar langsamer. Da diese Effekte schleichend sind und die Performanceprobleme nicht eindeutig einer einzelnen Ursache zugeordnet werden können, wird das Datenvolumen oft erst spät als eigentliche Ursache wahrgenommen und ins Visier genommen. Leider ist es dann mit kleinen Maßnahmen meist nicht getan, und viel konzeptionelle Arbeit muss nachgeholt werden, um ein Information Lifecycle Management (ILM) aufzusetzen, das definiert, wie mit Daten gemäß ihrem Alter und ihrer Nutzungsintensität umzugehen ist.

Die allermeisten Daten besitzen ihren höchsten Wert unmittelbar nach ihrer Entstehung. In den ersten Tagen oder Wochen wird noch mehrmals auf die Daten zugegriffen. Danach nimmt die Nutzungsfrequenz jedoch oft schnell ab. Bestenfalls sporadisch sind noch Zugriffe zu verzeichnen. Leider lässt sich bei vielen Daten nicht sagen, wann sie überhaupt nicht mehr benötigt werden. Manche Daten sind schon nach Minuten nicht mehr interessant, während andere noch nach Jahren ab und zu benötigt werden.

Daten archivieren und zurückholen
Daten können aus einem DWH entweder komplett gelöscht oder nur archiviert werden. Werden archivierte Daten doch irgendwann erneut benötigt, so kann man sie grundsätzlich wieder in das DWH zurückbringen. Für den Anwender sind archivierte und gelöschte Daten oft praktisch gleich unerreichbar, da er für ein Zurückladen auf seine IT-Kollegen angewiesen und die Hemmschwelle, ein Zurückladen des Archivs in Auftrag zu geben, aufgrund von Kosten und Umständen hoch ist. Archiviert werden Daten daher im Normalfall erst, wenn eine erneute Nutzung der Daten fast ausgeschlossen ist. Viele Daten bleiben daher über Jahre ungenutzt im DWH liegen – für alle Fälle.

Hinzu kommen oft gesetzliche oder – z.B. im Falle von Banken – aufsichtliche Aufbewahrungsfristen, die ein komplettes Löschen von Daten untersagen, da sie im Zweifelsfall zum Nachweis oder zur Nachvollziehbarkeit vergangener Aktivitäten dienen. Die langen Fristen führen nicht selten dazu, dass man sich zunächst überhaupt keine Gedanken über das Management alter Daten macht, bis man Jahre später merkt, dass die gesetzlichen Fristen für einen Teil der Daten eigentlich längst abgelaufen sind. Was vielen Unternehmen nicht klar ist: die Vorgaben des Gesetzgebers oder der Aufsichtsbehörden lassen sich in der Regel auch mit Archiven gut abbilden, da es nur in den wenigsten Fällen auch tatsächlich zum Datenzugriff kommt.

Archive sparen dauerhaft mehr, als sie kosten
Archive bieten gegenüber der Onlinedatenbank des DWH den Vorteil, dass die Daten stärker komprimiert und auf günstigere Medien gespeichert werden können. Sie verursachen zwar weiterhin Speicherkosten und Aufwand für das Datenmanagement. Allerdings sind diese Kosten deutlich geringer und die Datenmanagementprozesse weit weniger komplex und damit weniger zeit- und personalintensiv. Bei der Verwendung von Archiven empfiehlt sich in jedem Fall ein gründlicher Test durch Zurückladen. Ansonsten besteht – ähnlich wie bei Backups – das Risiko, dass vermeintlich sicher im Archiv liegende Daten in Wirklichkeit nicht mehr verwendbar sind. Auch Datenschutzvorschriften, die das Löschen von Daten nach Beendigung des Geschäftsverhältnisses und etwaigen Aufbewahrungsfristen fordern, sind zu berücksichtigen. Archivierte Daten werden in dieser Hinsicht gerne übersehen, obwohl für sie die Gesetze natürlich ganz genauso gelten.

Neben dem Löschen und Archivieren ganzer Entitäten gibt es eine Vielzahl an Mischvarianten und weiteren denkbaren Maßnahmen im Rahmen einer ILM-Implementierung. Bewährt hat sich z.B. das Aufbewahren von Monats-, Quartals- oder Jahresendständen statt tagesgenauer Daten. Diese und andere Maßnahmen setzen voraus, dass man sich intensiv mit den Gegebenheiten jeder einzelnen Datenentität befasst und individuelle Lösungen baut. Idealerweise passiert das bereits zum Zeitpunkt der Konzeption und Entwicklung von DWH-Anwendungen, spätestens im Betrieb aber sollten Art und Häufigkeit der Abfragen für jedes Datenobjekt systematisch analysiert werden, um so das tatsächliche Nutzungsverhalten zu ermitteln.

Wer möglichst viele Daten aus dem System entfernen möchte, ohne lange über mögliche sporadische Restnutzung nachdenken und mit Fachbereichen um eine Freigabe zur Archivierung ringen zu müssen, dem empfiehlt sich das sogenannte Nearline Storage (NLS). NLS erlaubt das Auslagern von Daten aus der Onlinedatenbank bei gleichzeitig fortgesetzter Verfügbarkeit der Daten für die jeweiligen Anwendungen mittels einer direkten Schnittstelle. Die Entlastung der Onlinedatenbank ist für Anwender unmittelbar anhand der reduzierten Antwortzeiten spürbar. Und selbst wenn doch einmal auf die im NLS-Archiv gespeicherten Daten zugegriffen werden muss, dann prüfen manche DWH- bzw. BI-Systeme automatisch selbst, welche Daten in der Datenbank und welche im Archiv stehen, und bedienen sich aus dem jeweiligen Medium.

Es geht auch einfach und schnell
Dank moderner und performanter Technologie unterscheiden sich die Laufzeiten von Online- und NLS-Abfragen in vielen Fällen auch nur unwesentlich. Wären NLS-Archivdaten im Nachhinein änderbar – was sie wie bei allen Archiven nicht sind –, würde vermutlich mancher IT-Verantwortliche darüber nachdenken, auch fast alle Daten in NLS abzulegen.

Praktisch alle Archivanbieter unterstützen mittlerweile NLS-Funktionen, von denen zunehmend die darüberliegenden professionellen Applikationen der großen BI- und DWH-Hersteller auch Gebrauch machen. Mit der Version 7.0 bietet beispielsweise SAP BW eine Schnittstelle für NLS, gegen die auch eine Reihe Archivanbieter bereits seit Längerem zertifiziert ist. Die Investitionen für NLS amortisieren sich typischerweise spätestens im zweiten Jahr.

Autor: Dr. Marcus Dill

Dr. Marcus Dill berät internationale Konzerne und mittelständische Unternehmen verschiedener Branchen bei Entwurf und Umsetzung ihrer Strategien für Data Warehousing, Business Intelligence und Customer Relationship Management. In diesem Umfeld blickt er auf zwanzig Jahre Erfahrung als Softwareentwickler, Berater, Architekt und Projektleiter zurück. Als Autor publiziert Dill regelmäßig in angesehenen Journalen zu Themen aus seiner beruflichen Praxis sowie zu aktuellen Technologien und Trends in BI und CRM. Seit 2007 ist Dr. Dill Geschäftsführer beim Berater- und Analystenhaus mayato.

Internet: http://www.mayato.com