Verwendung, Reife, Trends

Hadoop im Benchmark-Test

30.08.2011 von Thomas Pelkmann

Die Open Source-Lösung Hadoop schneidet bei einem "Big Data"-Benchmark von Ventana Research gut ab. Ihr Einsatz und Nutzen ist allerdings noch umstritten.

Große Datenmengen verarbeiten: Das ist eine Aufgabe, die Hadoop gut löst.
Foto: zothen - Fotolia.com

Wer über Nacht seine BI-Systeme anwirft, um die täglich einströmenden Datenmengen im Tera- und Petabyte-Bereich zu analysieren, hat schon verloren. Das ist - sinngemäß - die Kernaussage im Executive Summary der Benchmark "Hadoop and Information Management" der US-amerikanischen Marktforscher Ventana Research.

Heute gehe es darum, riesige Datenmengen rasend schnell zu verarbeiten, also zu erfassen, zu speichern, zu analysieren und für unternehmenskritische Entscheidungen heranzuziehen.

Die aus dem Open Source-Bereich stammende Parallelverarbeitung Hadoop ist prinzipiell in der Lage, mit solch riesigen Datenmengen schnell umzugehen und erfüllt damit die Bedürfnisse vieler Unternehmen nach genau dieser Technik. Allerdings, konstatiert der Ventana-Report, ist diese Technik noch viel zu unbekannt, um schon flächendeckend produktiv arbeiten zu können. Das Marktforschungsunternehmen aus den USA hat die Benchmark-Studie mit dem Ziel verfasst, einen Überblick über die Verwendung, die Reife sowie über Trends und Best Practices von Hadoop in der richtigen Welt zu vermitteln.

Das ist Hadoop
Hadoop, heißt es bei Wikipedia, "ist ein freies, in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Es basiert auf dem MapReduce-Algorithmus von Google sowie auf Vorschlägen des Google-Dateisystems "und ermöglicht es, intensive Rechenprozesse mit großen Datenmengen auf Computerclustern durchzuführen." (alle Zitate: Wikipedia) Hadoop besteht aus folgenden Bestandteilen: Das Hadoop Distributed File System (HDFS) hilft beim Speichern großer Datenmengen durch das Verteilen der Daten auf mehrere Blöcke. Wikipedia: "HDFS unterstützt dabei Dateisysteme mit mehreren 100 Mio. Dateien." Die Erweiterung Hive ergänzt Hadoop um die Abfragesprache QL, die auf SQL basiert und damit "die Verwendung einer SQL-artigen Syntax" erlaubt. Hive ist eine Entwicklung von Facebook, seit 2008 aber als Open Source erhältlich. Pig kann zur Analyse sehr großer Datenmengen eingesetzt werden. Dafür beinhaltet Pig sowohl eine Programmiersprache, die High Level-Abfragen auf Datenbestände ermöglicht, als auch einen Compiler zur Ausführung." Weitere Bestandteile: HBase, eine skalierbare Datenbank für sehr große Datenmengen innerhalb eines Hadoop-Clusters. HBase eignet sich laut Wikipedia für Daten, die selten verändert, aber häufig ergänzt werden. Chukwa für die Echtzeitüberwachung großer, verteilter Systeme. ZooKeeper wird für die Konfiguration der Systeme eingesetzt. Zu den Anwendern von Hadoop gehören namhafte Unternehmen wie Facebook, Amazin, eBay und Yahoo, die das System nutzen, um unstrukturierte Daten in Petabyte-Größe zu speichern und zu analysieren. Mit normalen relationalen Datenbanksystemen, heißt es, seien solche Aktionen gar nicht möglich gewesen. Webseite von Hadoop bei Apache.

Das ist Hadoop

Hadoop, heißt es bei Wikipedia, "ist ein freies, in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Es basiert auf dem MapReduce-Algorithmus von Google sowie auf Vorschlägen des Google-Dateisystems "und ermöglicht es, intensive Rechenprozesse mit großen Datenmengen auf Computerclustern durchzuführen." (alle Zitate: Wikipedia)

Hadoop besteht aus folgenden Bestandteilen:

Das Hadoop Distributed File System (HDFS) hilft beim Speichern großer Datenmengen durch das Verteilen der Daten auf mehrere Blöcke. Wikipedia: "HDFS unterstützt dabei Dateisysteme mit mehreren 100 Mio. Dateien."

Die Erweiterung Hive ergänzt Hadoop um die Abfragesprache QL, die auf SQL basiert und damit "die Verwendung einer SQL-artigen Syntax" erlaubt. Hive ist eine Entwicklung von Facebook, seit 2008 aber als Open Source erhältlich.

Pig kann zur Analyse sehr großer Datenmengen eingesetzt werden. Dafür beinhaltet Pig sowohl eine Programmiersprache, die High Level-Abfragen auf Datenbestände ermöglicht, als auch einen Compiler zur Ausführung."

Weitere Bestandteile: HBase, eine skalierbare Datenbank für sehr große Datenmengen innerhalb eines Hadoop-Clusters. HBase eignet sich laut Wikipedia für Daten, die selten verändert, aber häufig ergänzt werden. Chukwa für die Echtzeitüberwachung großer, verteilter Systeme. ZooKeeper wird für die Konfiguration der Systeme eingesetzt.

Zu den Anwendern von Hadoop gehören namhafte Unternehmen wie Facebook, Amazin, eBay und Yahoo, die das System nutzen, um unstrukturierte Daten in Petabyte-Größe zu speichern und zu analysieren. Mit normalen relationalen Datenbanksystemen, heißt es, seien solche Aktionen gar nicht möglich gewesen.

Webseite von Hadoop bei Apache.

Dabei schneidet Hadoop durchgehend gut ab: In einer Evaluation von 13 Anwendungsgebieten ist Hadoop andere Technologien überlegen, so Ventana Research. Wer Hadoop verwendet, entwickelt leichter neue Produkte und Services, spart eher Kosten, kann schnellere Analysen durchführen, nutzt IT-Ressourcen effizienter und verkürzt die Zeit für das Sammeln und Verarbeiten von Daten dramatisch.

Hadoop-Anwender gehen dabei mit sehr viel mehr Daten um, als die Nicht-Nutzer: Ein Drittel der Nutzer speichert und analysiert mehr als 100 Terabyte Rohdaten, während das bei der andere Gruppe weniger als 20 Prozent tun. Fast die Hälfte der Hadoop-Nutzer (48 Prozent) verarbeiten dabei mehr als 100 Gigabyte pro Tag, von den Nicht-Nutzern tun das nur 22 Prozent.

Hadoop macht andere Datenbanken nicht überflüssig

So bestechend die Vorteile von Hadoop scheinen: Dennoch gibt es Diskussionen darüber, ob die Einführung von Hadoop andere Ansätze der Datenverarbeitung hinfällig machen würde. Die Umfrage ergab aber ein anderes Bild: Nur 37 Prozent ersetzen mit Hadoop tatsächlich andere Systeme, während zwei Drittel mit ihnen weiterarbeiten.

Tatsächlich, heißt es in der Studie, suchen viele nach funktionalen Ergänzungen etwa für die Verarbeitung unstrukturierter Daten zum Beispiel aus sozialen Netzwerken oder maschinengenerierten Logfiles. Hadoop-Anwender analysieren solche Daten signifikant häufiger als ihre Nicht-Hadoop-Kollegen. "In zwei Drittel der untersuchten Fälle haben wir Leute gefunden, die mit Hadoop fortgeschrittene Analysen machen, zu denen sie vorher nicht in der Lage waren", sagt dazu der Autor des Berichts, David Menninger.

Hadoop verarbeitet schnell große Datenmengen

Die attraktivste Funktion von Hadoop ist dem Bericht zufolge die Fähigkeit, große Datenmengen schnell zu verarbeiten. Das entspricht den wichtigsten Evaluationskriterien: Skalierbarkeit und Performance. Die Nicht-Anwender haben jedoch andere Prioritäten: Hier stehen Sicherheit und Verschlüsselung an erster Stelle. Auch die Bewertung der Open Source-Herkunft fällt zwischen Nutzern und Nicht-Nutzern unterschiedlich aus: 60 Prozent der Hadoop-Anwender halten eine große OSS-Community für wichtig, aber nur 16 Prozent der anderen.

Hadoop ist eine relativ junge Technik, die sich vor allem an Entwickler wendet. Entsprechend, schreibt Ventana Research, ist der Bekanntheitsgrad in Business-Kreisen noch eher gering. Mit Hadoop gearbeitet wird vor allen in den Operations-Abteilungen der Unternehmen sowie - bereits seltener - bei Finance, Administration, Sales und Marketing, Kundendienst und Personalwesen. Unterschiede gibt es auch bei der Firmengröße: Kleine Unternehmen arbeiten seltener mit Hadoop.

Wenn die Verbreitung in den Lines-of-Business auch nicht so groß sind: Die Zufriedenheit mit Hadoop ist dort größer (44 Prozent) als in den IT-Abteilungen (30 Prozent). Das ist, bei näherem Hinsehen, kein Wunder, denn die Probleme betreffen einfach die IT, nicht das Business: Integration von Hadoop mit anderen IT-Infrastrukturkomponenten, Datenarchivierung: Logisch, dass die, die für die Funktionsfähigkeit von Hadoop zuständig sind, eher mit den Unpässlichkeiten zu tun haben, als die reinen Anwender.

Qualifikationen für Big Data noch unterentwickelt

Offenbar sind aber insgesamt die Qualifikationen für die produktive Arbeit mit "Big Data" in den Unternehmen eher unterentwickelt. Das gilt sowohl für die Hadoop-User als auch für die Nicht-Anwender. Vier Fünftel der Befragten bezeichnen diesen Missstand als Haupthindernis für Großdatenprojekte. Unternehmen, so der naheliegende Schluss, die solche Projekte initiieren wollen, sollten sich also um die passenden Mitarbeiter und/oder um geeignete Weiterbildungsmaßnahmen kümmern.

Was zu tun ist

Immerhin: Die Teilnehmer der Ventana-Umfrage äußern "signifikantes Interesse" an Hadoop und anderen Technologien für die Verarbeitung großer Datenmengen. Mehr als die Hälfte favorisiert dabei Hadoop, allerdings eher zur Unterstützung oder Ergänzung bestehender Systeme als zu deren Ersatz.

Wer ein "Big Data"-Projekt konkret angehen möchte, prüfe zunächst den Reifegrad seines Unternehmens, rät Ventana. Bei der Benchmark schnitten viele bereits sehr gut ab: 58 Prozent der Firmen finden sich im Mittelfeld wieder, 24 Prozent auf dem höchsten Reifegrad, aber nur 19 auf die niedrigsten. Das, so Ventana, deutet darauf hin, dass die Unternehmen diese Projekte sehr ernst angehen.

Zur Vorbereitung des Projekts gehören zudem die richtigen Auswahlkriterien: Skalierbarkeit, Performance, Community: Das sind eher wichtige Merkmale für Hadoop-Freunde, die mehr Wert auf das schnelle Laden von Daten legen, während Anwender anderer Systeme eher auf Abfragegeschwindigkeit setzen.

Für das Projekt ist es wichtig zu verstehen, schreibt Ventana, dass Hadoop neben anderen Technologien eingesetzt werden kann. Es gehe meistens darum, neue Kapazitäten zu entdecken, nicht, die bestehenden zu ersetzen. Insofern seien bereits getätigte Investitionen mit Hadoop nicht unbedingt hinfällig.

Beim Austausch sind klassische Datenbanksysteme gefährdet

Geht es aber doch um den Austausch von Systemen, dann oft deshalb, weil Hadoop sich sehr flexibel bei Speichern und Analysieren großer Mengen strukturierter und unstrukturierter Daten zeigt. Am meisten betroffen von diesen Fähigkeiten sind relationale Datenbanken (71 Prozent), Speicher und Archivierung (75 Prozent) und Textanalysen (43 Prozent).

Mehr Ratschläge zum Umgang mit Big Data finden Sie in einer frei erhältlichen Zusammenfassung der Studie.