Große Speichermengen im Griff

Big Data intelligent managen und nutzen

26.11.2012 von Steven Totman

Unternehmen stehen zunehmend unter Druck, aus ihren zahlreichen Datenquellen ein Maximum an Wert zu schöpfen. Gleichzeitig müssen die Kosten minimiert und der laufende Betrieb optimiert werden. Hier ist ein Blick auf die bestehende Business-Intelligence-Strategie notwendig. Wir zeigen Ihnen Ansätze für ein effizientes Datenmanagement.

Einer der wesentlichen Faktoren ist hier die schnelle und effektive Datenintegration, da sie die Basis für sinnvolle und erfolgreiche Datenanalysen in Echtzeit bildet. Mit der konsequenten Umsetzung einer ETL-Strategie (Extract - Transform - Load) und vor allem der Datentransformation selbst bei großen und hochgradig unstrukturierten Datenmengen stehen Unternehmen alle Möglichkeiten für eine intelligente Verwendung der generierten Daten offen.

Datenvolumen, Datengeschwindigkeit und Datenvielfalt

Es sind hauptsächlich drei große Herausforderungen, die Unternehmen heutzutage bei der Datenverarbeitung bewältigen müssen. Die erste ist das steigende Datenvolumen. Mehr und mehr Anwendungen des Geschäftsalltags sind digitalisiert und liefern ständig neue Daten. IDC geht von einem Wachstum der Menge an digitalen Daten von bis zu 35 Zettabyte bis zum Jahre 2020 aus (IDC Digital Universe Study 2011). Hinzu kommt die enorme Geschwindigkeit, mit der Daten integriert werden sollen, um für Analysen bereitzustehen. Gleichzeitig fragen immer mehr Unternehmensabteilungen immer mehr unterschiedliche Daten für Analysen ab, stets mit der Forderung nach höchster Aktualität. Im Idealfall sollen Echtzeitanalysen laufen, damit zum Beispiel das Marketing oder der Einkauf schnellstmöglich auf neue Marktbedingungen reagieren kann. Zu einer rascheren Datenaktualisierung kommt somit eine erhöhte Abfragekomplexität, derer die IT-Abteilungen Herr werden müssen.

Strukturierte, teilstrukturierte und unstrukturierte Daten

Waren es früher größtenteils strukturierte Daten, beispielsweise aus SAP oder dem ERP-System, müssen nun zunehmend teilstrukturierte Daten wie XML oder HTML und vor allem unstrukturierte Daten verarbeitet werden. Zu Letzteren zählen neben Textdokumenten, E-Mails oder Präsentationen nun auch vielfältige neue Datenformate, die in den vergangenen Jahren für eine enorme Zunahme des Volumens gesorgt haben. Zum Beispiel Daten, die aus M-to-M-Anwendungen gewonnen werden und damit von Sensoren oder aus On-Board-Systemen stammen. Oder auch von diversen Social-Media-Plattformen, Weblogs sowie Internetforen. Die Vielzahl dieser unstrukturierten Daten erfordert neue Lösungen, da sie mit bisherigen Business-Ingelligence-Lösungen und Data Warehouses wie zum Beispiel SQL-Datenbanken nicht mehr zu bewältigen sind.

Ineffiziente Versuche einer Problembewältigung

Aufgrund der gestiegenen Datenkomplexität reichen bestehende Datenintegrationslösungen häufig nicht mehr aus. Mit der über die Jahre gewachsenen Menge an Data Warehouses und Data Marts wurde die Situation noch komplexer. Abhilfe sollten meist eigene, über Wochen entwickelte und getestete Programme schaffen. Scheiterten diese, wurden weitere Lösungen für bestimmte Anwendungen angeschafft, die oft nicht kompatibel waren. Mit steigendem Datenvolumen gingen viele Unternehmen dann einfach dazu über, die anfallende Flut aus unstrukturierten Daten nur noch verschiedenen Speicherorten zuzuweisen, ohne sie vorher wirklich zu verarbeiten und zu transformieren. Das Ergebnis sind heterogene Datenverarbeitungs- und Speicherstrukturen in vielen Unternehmen, die weder wirtschaftlich im Sinne einer niedrigen TCO (Total Cost of Ownership) noch zielführend für potenzielle Datenanalysen sind.

Mit starker Basis zur effektiven Analyse

Die Möglichkeiten, die in Big Data stecken, sind enorm. Beispielsweise könnten Unternehmen die massive Anzahl an täglich generierten Tweets, die zurzeit bei etwa 12 Terabyte liegen sollen, für die Trendforschung nutzen und die aus Meinungen und Aussagen gewonnenen Erkenntnisse in der Produktentwicklung einsetzen. Ebenso könnte ein Telekommunikationsanbieter eine Art Frühwarnsystem für wechselwillige Kunden entwickeln, indem er die täglich anfallenden Millionen an Verbindungsdaten analysiert. Laut Forrester nutzen Unternehmen aber bisher einen nur sehr geringen Teil der ihnen zur Verfügung stehenden Informationen (Forrester: Expand Your Digital Horizon With Big Data, 2011). In vielen Fällen machen auch gesetzliche Vorgaben Analysen notwendig. Beispielsweise sorgen neue Regularien wie Basel III oder Solvency II im Finanzsektor dafür, dass Finanzinstitute Transaktionen oftmals in Echtzeit offenlegen müssen. Dafür ist nicht nur eine schnelle Verarbeitung von Terabytes an Daten notwendig, auch aufwendige Analyse- und Modellierungsverfahren sind gefragt.

Solche Verfahren erfordern aber erweiterte analytische Prozesse rund um die unterschiedlichsten Datentypen und -quellen. Das sind zum Beispiel komplexe Textanalysen, Kurvenanalysen oder die Auswertung von Echtzeitströmen von sich in Bewegung befindlichen Daten. Ebenso gibt es in Big-Data-Umgebungen verschiedene Plattformen ergänzend zur Data-Warehouse Datenbankmanagementtechnologie (DBMS) und damit eine komplexere Datenmanagementarchitektur. Diese beinhaltet Hadoop-Plattformen, NoSQL-Datenbanken, Event Stream Processing Engines oder spezialisierte analytische Anwendungen für relationale Datenbankmanagementsysteme. Kurz gesagt: spezielle Systemanwendungen für spezielle Daten.

Die Datenintegrationsstrategie muss nun dafür sorgen, dass alle anfallenden Daten schnell und effizient in eine für die Weiterverarbeitung passende Form gebracht und in das für sie vorgesehene Speichersystem geladen werden. Der Prozess sollte möglichst systemübergreifend funktionieren und auch die Rückführung von Analyseergebnissen in das Datenintegrations-Tool beinhalten.

Basisansätze für eine effiziente Datenintegration

Damit die täglich anfallenden Datenströme effizient verarbeitet werden können, sollten Unternehmen ihre Datenintegrationsstrategie überdenken. Ein wichtiger Grundsatz dafür lautet: Nicht alle Daten sind wichtige Daten. Der Versuch, alle Daten in den Verarbeitungs- und Analyseprozess einzubeziehen, ist oft sinnlos und kostet zu viel Zeit. Für Big-Data-Umgebungen gelten daher die folgenden drei Schritte für eine sinnvolle Filterung:

Definieren Sie eine klare Strategie, die alle genauen Datenanforderungen definiert (Warum brauche ich diese Daten? Wie helfen mir diese Daten, meine Geschäftsziele zu erreichen?).
Bauen Sie ein Datenmanagementmodell entsprechend Ihren Geschäftsbedürfnissen.
Implementieren Sie die richtigen Datenintegrations-Tools für die einzelnen Aufgaben.

Zurück zur ETL-Ebene

Datenanalyseverfahren können nur so gut sein wie die Datenbasis, die ihnen zugrunde liegt. Daher ist es wichtig, für diese starke Datenbasis zu sorgen. Erreicht werden kann das zum Beispiel, indem alle Datentransformationen in eine leistungsstarke In-Memory ETL Engine eingespeist werden. Damit werden vier Ziele erreicht:

Eine hohe Performance und Skalierbarkeit bei der Datenintegration;
eine effizientere Datenintegrationsarchitektur und bessere Ausnutzung der Hardware;
laufende Prozessoptimierung auf Basis integrierter Optionen;
Kosteneinsparungen durch geringeren Bedarf an Hardwareinfrastruktur sowie Entlastung des IT-Personals.

Die richtigen Datenintegrations-Tools können zudem das Volumen mittels Datenkompressionstechniken wie De-Duplizierung bereits auf ETL-Ebene reduzieren und die angeschlossenen Speichersysteme entlasten. Das britische Unternehmen comScore, ein globaler Anbieter von Internetdienstleistungen, konnte beispielsweise 100 Byte an Daten mittels Sortierung auf lediglich 12 Byte verkleinern, während bei unsortierten Daten gerade einmal 30 oder 40 Byte möglich sind. Hochgerechnet auf den Terabytebereich ergibt das eine enorme Einsparung an Speicherkapazität. Um eine entsprechende Performance zu gewährleisten und die Data Warehouses zu entlasten, ist es daher notwendig, alle Transformationsprozesse vom Datenintegrations-Tool durchführen zu lassen und nicht auf die Speicherebene zu verschieben, wie etwa beim ELT-Ansatz (Extract - Load - Transform).

Trends für die Datenintegration

Was aber muss eine Datenintegrationslösung leisten können, um eine so hochgradig skalierbare Datenmanagementarchitektur sowie effiziente Datenanalysen zu ermöglichen?

Zunächst sollte sich die Lösung schnell in den bestehenden Datenmanagementprozess implementieren lassen - das bedeutet: in wenigen Monaten und nicht erst nach einem Jahr. Zudem ist es wichtig, dass die Software nur minimale Ressourcen auf der vorhandenen Standardhardware belegt und damit keine Kostenexplosion verursacht. Vielmehr beschleunigt eine Datenintegrationslösung bereits bestehende Datenintegrationsprojekte, sofern sie mit anderen DI-Produkten zusammenarbeiten und diese erweitern kann. Einmal eingespielt, bringt eine dynamische Optimierung der Verarbeitung weitere Vorteile, indem DI-Lösungen in der Lage sind, stets die effizientesten Algorithmen und Funktionen auszuwählen.

Damit effektive und kosteneffiziente ETL-Verarbeitung in Big-Data-Umgebungen gewährleistet werden kann, ist die Unterstützung von Parallelverarbeitungen während des ETL-Prozesses entscheidend. Dazu gehört die Fähigkeit, Transformationen dynamisch für verschiedene ETL-Verarbeitungsarten zu optimieren. Ebenso wichtig ist die Unterstützung der schnellen Extraktion, Transformation und des Ladens von Daten zwischen Hadoop, NoSQL, Data Warehouses und analytischen Datenspeichern des Datenbankmanagementsystems. Das ermöglicht die schnelle Bewegung von Daten zwischen Big-Data- und traditionellen Datenspeichern während der Analyse.

Weitere Funktionen, auf die geachtet werden sollte

Für die Erweiterung und Optimierung der Datenintegration in Big-Data-Umgebungen ist es außerdem wichtig, auf Lösungen zu setzen, die:

Schnittstellen zu unstrukturierten Datenquellen wie High-Volume-Transaktionssystemen, Weblogs, sozialen Netzwerken wie Facebook oder Twitter, Content-Management-Systemen, Webseiten, Dokumenten oder Sensoren besitzen;
Verbindungen bieten, um diese Daten in spezifische Speicher- und Analyse-Workflows integrieren zu können und damit beispielsweise Verbindungen zu Hadoop und NoSQL-Datenspeichern als Ergänzung zu den bisherigen Datenbanken ermöglichen;
die Integration von Event Stream Processing erlauben, um gefilterte und für Analysen interessante Ereignisdaten in Hadoop oder andere analytische rationale Datenbankmanagementsysteme aufnehmen zu können;
die grafische Entwicklung von Map Reduce Jobs unterstützen;
Hadoop HDFS und Hive, NoSQL DBMS, Datenbanken und entsprechende Anwendungen schnell laden können;
die Aufgliederung und Extraktion von Daten aus multistrukturellen Datenquellen unterstützen.

Fazit

Vernetzte Unternehmensstrukturen im Zeichen der Globalisierung sowie das zunehmende Aufkommen von Social Media und mobilen Telekommunikationsgeräten im Geschäftsalltag stellen Unternehmen vor neue Herausforderungen beim Umgang mit ihren Daten. Ein extrem wachsendes Datenvolumen aus zunehmend unterschiedlichen Datenquellen muss in immer kürzeren Zeitabständen verarbeitet werden. Diese Daten sollen anschließend analysiert werden, um neue Erkenntnisse für künftige Umsatzpotenziale oder verbesserte Kommunikationsprozesse zu gewinnen. Ohne Frage steckt darin sehr viel Potenzial. Damit Unternehmen jedoch wirklichen Nutzen aus ihren Daten ziehen können, sollten sie sich Gedanken über die Basis dieses Prozesses machen. Und die heißt: Datenintegration. (Tecchannel)