SAP Hana, In Memory, Hadoop & Co.

Big Data im Praxistest

09.07.2012 von Hartmut Wiehr

Big Data heißt das PR-Zauberwort der Anbieter. Doch viele Anwender wissen noch gar nicht, ob sie das überhaupt brauchen. CIO Georg Schukat probiert es schon mal aus.

Thomas Hörig-Braun, Vorstand der EDI AG: "Bei Big Data Analytics geht es darum, Zielgruppen zu durchleuchten, Produkte zu platzieren, und ganz allgemein um Umsatzsteigerung."
Foto: EDI AG

Eines kann man sicherlich nicht abstreiten: Die Datenberge wachsen selbst in Krisenzeiten in den Rechenzentren rund um den Globus. Peta- und Zettabytes von digitalisierten Informationen überfordern die Vorstellungskraft, und manche sprechen bereits vom unendlichen Universum an Daten.

Es handelt sich um klassische Produkt-, Personen- oder Kundendaten, gespeichert in herkömmlichen relationalen Datenbanken, und dazu kommen als unstrukturierte Informationen zum Beispiel Texte, Musik, Fotos oder Videos. Zunehmend deponieren die Menschen auch ihre privaten Daten irgendwo und unsystematisch in sozialen Netzwerken oder in Cloud-Angeboten.

Von dieser Situation profitieren die Hersteller von Speichergeräten aller Größenordnungen, selbst das Servergeschäft blüht in den Zeiten von Virtualisierung. Aber der Appetit vieler Anbieter ist größer. Noch ist der Hype rund um Private, Public oder hybride Cloud-Services gar nicht so richtig bei den Anwendern angekommen, da wird schon die nächste Welle angeschoben: "Big Data" heißt das neue Zaubermittel, mit dem die Datenfluten produktiv gemacht werden sollen.

Bedarf noch ungeklärt

Kleines Problem dabei: Noch wissen viele Unternehmen gar nicht, dass sie einen Bedarf an Durchforstung und Analyse ihrer so dramatisch gewachsenen Datenberge haben sollen. Zudem setzen einige von ihnen schon seit Langem Tools wie Data Warehouses oder Business Intelligence (BI) ein. Allerdings galt das nur in begrenztem Umfang für unstrukturierte, nicht in SQL-Datenbanken erfasste digitale Informationen.

Aber genau diesen Eindruck erzeugen zurzeit die Marketing-Kampagnen von EMC und anderen Vertretern der IT-Branche. Dabei arbeiten sie mit einem kleinen Trick: Die alten Methoden seien unzureichend, so argumentiert zum Beispiel Greenplum, die Big-Data-Division von EMC, da rückwärtsgerichtet. Data Warehouse, BI & Co. würden immer nur die Daten von gestern betrachten, die noch dazu mit großem Zeitaufwand in ein Repository (Data Warehouse) geladen werden müssten. Und auf die Ergebnisse müsse man Stunden oder Tage warten.

Unterscheiden zwischen Social Networks und Internet der Dinge

Big Data: Die Software-Umsätze bis 2015.
Foto: cio.de

Anders bei "Big Data". Hier gehe alles sehr schnell, "realtime", und die Executives hätten immer die alleraktuellsten Auswertungen auf dem Tisch. Ein weiterer Pluspunkt der neuen Technologie: Mit "Predictive Analytics" sollen fundierte Prognosen über die künftige Geschäftsentwicklung möglich sein.

Laut Thomas Hörig-Braun, Vorstand beim auf Speicher spezialisierten Beratungshaus EDI, ist es sinnvoll, zwischen "Social Networks" und dem "Internet der Dinge" zu trennen: "Big Data Analytics hat meist einen vertrieblichen Hintergrund. Es geht darum, Zielgruppen zu durchleuchten, Produkte zu platzieren, und ganz allgemein um Umsatzsteigerung."

Und beim "Internet der Dinge" gehe es vornehmlich um die Auswertung von Logdateien, die heute von Milliarden Sensoren produziert werden. Dazu gehören etwa Handynetze, Stauprognosen, Feinstaubmessungen, Wetterstationen oder Bordcomputer von Autos, die fortwährend Daten an den Hersteller senden.

Hadoop ist noch eine junge Technologie

"Big Data" wird häufig mit "Hadoop" identifiziert. Hadoop steht für eine sehr junge Technologie, die unter dem Dach der Apache Software Foundation entstand und von einer großen Gemeinde von Software-Entwicklern gepflegt wird: Mit ihr lassen sich große Mengen von Daten in einer skalierbaren Umgebung von Cluster-Systemen verschieben, wobei jeweils ein direkt angeschlossenes Speichergerät (DAS, Direct Attached Storage) als Repository dient. Die Cluster-Struktur kann von einigen wenigen bis zu Tausenden von Nodes reichen, die jeweils aus einem Rechner plus Storage-Array bestehen und für eine parallele Datenverarbeitung sorgen.

Georg Schukat, Geschäftsführer, Schukat electronic: "Der Implementierungsaufwand für ein BW mit Hana als Datenbank ist viel geringer als für ein BW mit einer Standard-DB."
Foto: Schukat electronic

Große Hadoop-Cluster finden sich bei Yahoo, Google, Facebook, AOL oder der Mozilla Foundation. Gartner-Analyst Arun Chandrasekaran bilanziert: "Hadoop muss noch viele technische und personelle Herausforderungen bestehen, um wirklich für den Unternehmenseinsatz bereit zu sein." Ein Ausweg könnte sein, für den Einstieg professionell abgestützte Hadoop-Varianten samt Beratung und Service zu wählen, wie sie von einigen großen Herstellern angeboten werden.

Big Data ist mehr als Hadoop

Doch Big Data oder Analytics ist mehr als Hadoop. Eine Untersuchung von Ventana Research hat Anfang 2012 ergeben, dass die "drei Vs" - Volume, Velocity (Geschwindigkeit) und Variety - bisherige Installationen von Big-Data- und Hadoop-Ansätzen charakterisieren. 90 Prozent der von Ventana Research befragten Unternehmen halten Skalierbarkeit und Performance für die wichtigsten Auswahlkriterien, warum sie sich für eine Big-Data-Lösung entschieden haben, danach folgen Volume und Velocity vor Variety.

Aufschlussreich sind die Ventana-Ergebnisse vor allem deshalb, weil sie die nach wie vor große Bedeutung der relationalen Datenbanken für analytische Aufgaben zeigen. Ein Drittel von ihnen setzt auch Data-Warehouse-Anwendungen ein, die typischerweise SQL-Datenbanken zusammen mit Massive Parallel Processing (MPP) verwenden. Und 33 Prozent setzen auf In-Memory-Technologien, bei denen die Daten vorübergehend in einen speziellen Cash (heute meist Flash oder SSD) geladen werden, was die Analysen deutlich beschleunigt. Ventana Research: "Alle diese Varianten sind weiter verbreitet als Hadoop."

Anwender setzt Hana von SAP ein

Jemanden zu finden, der sich bereits mit Big Data & Analytics im produktiven IT-Einsatz befasst, ist gar nicht so einfach. Wer Hersteller nach Kundenreferenzen fragt, wird entweder endlos vertröstet oder erhält gleich eine Absage. Wenn überhaupt, reden eher kleinere Firmen. So berichtet Geschäftsführer und CIO Georg Schukat vom mittelständischen Familienunternehmen Schukat electronic über seine Erfahrungen mit Hana, der In-Memory-Alternative von SAP. Der Distributor von Elektronikartikeln für Geschäftskunden aus Monheim am Rhein operiert europa- und weltweit.

Die Systemlandschaft in seinem Haus bezeichnet Schukat als "by Design". Schukat: "Die gesamte IT wird inhouse betrieben. Innovation muss bei uns in Form von Prozessinnovation stattfinden." Auf der Softwareseite ist die Systemlandschaft im Kern durch SAP geprägt. Seit 2009 hat man eine ganze Palette von ERP-Modulen eingekauft, darunter SD, MM, FI, PP, CO und EWM für das Lager.

Für die Erstellung von Produkt- oder Kundenprofilen verwendet man SAP-BW, und darüber hinaus setzt man seit einigen Monaten die Hana-Technologie von SAP für Business Intelligence ein, um endlich auch zeitgerecht generelle Analysen fahren zu können. Dies sei vorher nicht möglich gewesen, da die Performance des Gesamtsystems regelmäßig an dieser Aufgabe scheiterte.

Ein SAP Hana-Projekt bei Schukat electronic

CIO Schukat berichtet, dass Datenauswertung auch schon vor dem SAP-Einsatz sehr wichtig gewesen sei. Sie war und ist ein Reporting direkt auf den operativen Systemen. In den SAP-Modulen werden dazu die mitgelieferten und eigene Info-Strukturen (Vorläufer von BW), Querys sowie eigene ABAP-Reports genutzt. "Mit großen Nachteilen", wie Schukat sagt, "viel Aufwand bei der Erstellung, aus Prinzip schlechte Performance (Reporting auf einem OLTP-System), zusätzlich unflexibel und nur mit großem Aufwand an neue Anforderungen anpassbar."

Die Marktanteile der Big-Data-Anbieter.
Foto: cio.de

Aber für die Ad-hoc-Sammlung von Informationen über einzelne Materialien oder bestimmte Kunden hat die Software laut Schukat durchaus funktioniert. Alles war "nur einen Mausklick entfernt und lief sehr gut". Für bestimmte Aufgaben, zum Beispiel bei Telefonkontakten mit Kunden, wird deshalb weiterhin auf diese herkömmliche Technologie zurückgegriffen.

Hana dagegen ist für anspruchsvollere Analysen vorgesehen. Mit dieser In-Memory-Technologie wird, so Schukat, "die Performance-Frage aufseiten der Datenhaltung erledigt". Doch dann fügt er an: "Viel wichtiger für uns ist aber die Vereinfachung des BW-System-Designs. Denn der Implementierungsaufwand für ein BW mit Hana als Datenbank ist viel geringer als für ein BW mit einer Standard-DB."

Unzufrieden mit Lizenzkosten

Explizit nicht einverstanden ist der CIO mit den Lizenzkosten. SAP orientiere sich hier an den großen Unternehmen und nehme zu wenig Rücksicht auf den Mittelstand, der seine IT-Ausgaben schärfer durchkalkulieren müsse.

IBM ist ebenfalls dabei, seine Watson-Technologie in Richtung Verarbeitung und Analyse von umfassenden medizinischen Informationen voranzutreiben. Der Ansatz sieht sich weniger in der Nähe von Mathematik und Statistik, sondern als eine Variante der Linguistik: Durch intelligente Fragestellungen an die angehäuften strukturierten und unstrukturierten Daten sollen Antworten zustande kommen, bei denen Inhalte - und nicht Zahlen - im Vordergrund stehen.

Big Data schafft nicht klassisches BI ab

Dass Big Data und Analytics keinesfalls menschliche Entscheidungen überflüssig machen, ist ein Aspekt, der in der gegenwärtigen Marketing-getriebenen Kampagne gerne übersehen wird. Es stimmt auch keineswegs, dass Big Data klassische Werkzeuge wie Business Intelligence abschafft. Eher schon im Gegenteil.

Das Beispiel von Greenplum, 2010 von EMC übernommen und in Erwartung künftiger Gewinne inzwischen mit sehr viel Personal und Kapital ausgestattet, zeigt sehr schön, dass es ohne BI nicht geht. Der recht komplexe Ansatz von Greenplum, der auf der Kombination von Hadoop und skalierbaren Speichersystemen aufbaut, sieht explizit einen BI-Layer vor: Über Schnittstellen sollen bestehende BI-Tools wie die von Cognos, Information Builders, MicroStrategy oder SAS für die intensive Datenanalyse eingesetzt werden.

Daten - Wachstum bis 2015

Die Datenmengen wachsen rasant. Wurden im Jahre 2005 weltweit noch 130 Exabyte (ein Exabyte entspricht einer Million Terabyte) gespeichert, so waren es 2010 schon 1200 Exabyte. Bis 2015 soll sich der Datenberg laut einer IDC-Studie im Auftrag von EMC bis auf 7900 Exabyte (entspricht 7,9 Zettabyte) stapeln.