Amazon, Cloudera, Hortonworks, MapR & Co.

Hadoop-Distributionen im Kurzprofil

18.07.2014 von Bernd Reder

Im Zuge von Big Data steigt in deutschen Unternehmen das Interesse an einem Framework für eine hoch skalierbare Infrastruktur zur Analyse großer Datenmengen. Die Open-Source-Variante Hadoop hat sich als Quasi-Standard etabliert. Mittlerweile sind jedoch auch Enterprise-Distributionen einiger Hersteller auf dem Markt, darunter auch IBM und Microsoft. Wir stellen sieben Anbieter und ihre Produkte vor.

Anwender haben drei Optionen, um Hadoop zu nutzen. Sie können auf die Basisversion von Apache Hadoop zurückgreifen. Diese ist als Open Source kostenlos verfügbar, setzt jedoch beträchtliches Know-how voraus. Das betrifft insbesondere das Aufsetzen und Verwalten eines Hadoop-Server-Clusters. Zwar stehen etliche Tools zur Verfügung, die im Rahmen anderer Apache-Hadoop-Projekte entwickelt werden. Doch müssen diese quasi von Hand implementiert und aufeinander abgestimmt werden.

Für Unternehmen einfacher zu handhaben sind Hadoop-Distributionen, also Pakete, die aus der Basissoftware, Tools und teilweise herstellerspezifischen Erweiterungen bestehen. Anbieter solcher Distributionen sind beispielsweise Amazon, Cloudera, EMC, Hortonworks, IBM, MapR und Microsoft. Ein Vorteil für Unternehmenskunden besteht darin, dass sie vom Hersteller ein integriertes Softwarepaket erhalten, das sich einfacher konfigurieren lässt als die Grundversion von Hadoop. Hinzu kommt die technische Unterstützung durch den Hersteller.

Im Folgenden werden die Hadoop-Distributionen der genannten sieben Anbieter sowie die Hadoop-Kooperation von Intel mit Cloudera vorgestellt:

Amazon Elastic MapReduce (EMR)

Amazons Cloud-basierter Service "Elastic MapReduce" (EMR) nutzt Hadoop für die Verteilung der Daten und die Verarbeitung auf einem skalierbaren Cluster. Dieses Cluster besteht aus Server-Instanzen, die Amazon EC2 (Elastic Compute Cloud) bereitstellt, sowie aus Speicherkapazitäten von Amazon S3. Ein Vorteil ist, dass der User ein EMR-Cluster in wenigen Minuten einrichten kann. Er muss sich weder um die Bereitstellung von Knoten noch um das Konfigurieren von Clustern und Hadoop kümmern.

Amazon plant, sein Hadoop-Angebot sukzessive zu erweitern. Ein Beispiel dafür ist die Integration von "Amazon Kinesis" für die Verarbeitung von Daten-Streams, ein weiteres die Anbindung der Data-Warehouse-Lösung "Amazon Redshift" und von anderen Datenquellen wie NoSQL-Datenbanken. Für EMR spricht zudem, dass Amazon mit Hilfe von Partnern Business-Intelligence-Tools in sein Hadoop-Angebot integrieren wird. Dasselbe gilt für Entwicklungs-Tools und Werkzeuge für das Cluster-Management.

Das Ziel: Hadoop as a Service soll auch Unternehmen ansprechen, die den Aufwand scheuen, eine eigene Hadoop-Umgebung im Unternehmensnetz einzurichten. Nach Berechnungen der Beratungsgesellschaft Accenture könnte dies aufgehen. Demnach weist eine Cloud-basierte Hadoop-Version ein besseres Preis-Leistungsverhältnis auf als eine Bare-Metal-Implementierung auf unternehmenseigenen Servern.

Für ein Hadoop-Cluster mit zehn Knoten stellt Amazon ab 0,15 Dollar pro Stunde in Rechnung.

Cloudera

Die US-Firma Cloudera zählt zu den bekanntesten Anbietern von Hadoop-Distributionen. Im März 2014 beteiligte sich Intel mit angeblich 720 Millionen Dollar an dem Unternehmen und brachte seine eigene Hadoop-Technik in die Partnerschaft ein. Clouderas Software dürfte davon profitieren, weil sich Intel bei seinen Hadoop-Versionen auf spezielle Bereiche konzentrierte. Zu nennen sind hier etwa die Performance-Optimierung in Clustern mit Intel-Prozessoren, der Schutz von Daten mittels Verschlüsselung und der Einsatz von Hadoop im Bereich High Performance Computing (HPC).

Cloudera bietet mehrere Versionen von Hadoop an, darunter die kostenfreie Einstiegsvariante "Cloudera Express", eine Ausgabe für Entwickler mit dem Namen "Cloudera CDH" sowie die Enterprise-Edition "Cloudera Enterprise". Die Hadoop-Version für Unternehmen basiert auf Cloudera CDH. Der Hersteller hat eine separate Cluster-Management-Software hinzugefügt, außerdem Support-Leistungen. Nach Einschätzung der Beratungsfirma Flux7 ist die Management-Konsole "Cloudera Manager" einfach zu bedienen und zeichnet sich durch große Übersichtlichkeit und eine Vielzahl von Funktionen aus.

Als weitere Stärken gelten die Möglichkeiten, neue Services im laufenden Betrieb in ein Cluster zu integrieren, und die Verwendung von Node Templates. Mit Hilfe dieser Vorlagen lassen sich auf relativ einfache Weise Gruppen von Cluster-Knoten mit unterschiedlichen Konfigurationen implementieren.

Hortonworks

Die aktuelle Version 2.1 der "Hortonworks Data Platform" steht seit Kurzem zur Verfügung. Eine Besonderheit ist, dass Hortonworks nicht nur Linux, sondern auch Windows unterstützt. Die Hadoop-Distribution enthält unter anderem die Tools Stinger Solr und Storm, aber auch Lösungen für Sicherheit sowie IT- und Daten-Governance.

Hortonworks gilt als treibende Kraft hinter der Einführung von YARN (MapReduce 2.0) und zählt zudem den eifrigsten Lieferanten von Programmcode für Hadoop und entsprechende Erweiterungen. YARN ist eine Ergänzung von MapReduce, der traditionellen Batch-Komponente von Hadoop.

Den Consultants von Flux7 zufolge fallen die Performance-Daten der Distributionen von Cloudera und Hortonworks ähnlich aus. Schwächen weist demnach Hortonworks beim Cluster-Management auf. Dieses sei "primitiver" als das bei anderen Distributionen und daher verbesserungsfähig. Allerdings bezieht sich diese Kritik auf die überholte Version 1.3 der Hortonworks Data Platform. Seit April 2014 steht HDP 2.1 zur Verfügung, inklusive Ambari, einer durchaus leistungsstarken Cluster-Management-Konsole.

Ein Pluspunkt ist zudem die Integration von Apache Stinger. Damit will Hortonworks Apache Hive bis auf das Hundertfache beschleunigen. In der aktuellen Ausgabe HDP 2.1 ist Stinger Phase 3 enthalten. Weitere Komponenten von HDP aus der Hadoop-Ökosphäre sind unter anderem Apache Falcon für das Replizieren von Daten und die Authentifizierungssoftware Knox.

IBM mit InfoSphere BigInsights

IBMs Distribution "InfoSphere-BigInsights" wird von Forrester Research in einer Studie zu Hadoop-Distributionen von Anfang 2014 gut bewertet. Das überrascht ein wenig, weil das Unternehmen nicht unbedingt als Open-Source-Spezialist bekannt ist. Allerdings verfügt IBM über alle Tools und Kenntnisse, die für Big Data vonnöten sind: Datenbanken, Analysewerkzeuge, Erfahrung im Bereich Cluster und High-Performance-Computing, Datenmodellierungs-Tools etc.

InfoSphere BigInsights ist eine Hadoop-Distribution, die IBM im Vergleich zum Original in folgenden Punkten erweitert beziehungsweise optimiert hat: Textanalyse, Performance, ein Workload-Management, Visualisierung der Analyseresultate und Sicherheit. Als Ergänzung steht InfoSphere Streams zur Verfügung. Damit lassen sich Streaming-Daten analysieren.

Version 2.1.2 von BigInsights unterstützt HDFS 2.2. Erweitert hat IBM unter anderem die Backup- und Replizierungsfunktionen von HBase. Zudem unterstützt die Distribution sowohl das Hadoop Distributed File System (HDFS) als auch das General Parallel File System (GPFS) - File Placement Optimizer (FPO). GPFS ermöglicht neben dem Replizieren von Daten eine hierarchische Speicherverwaltung und stellt Hochverfügbarkeitsfunktionen bereit. Zudem sollen Anwendungen, die nicht auf Hadoop zugeschnitten sind, eine höhere Performance aufweisen. Dies wird laut IBM durch ein verbessertes Caching und Bearbeiten von Metadaten erreicht. Zudem werden parallele Read-/Write-Aktionen von mehreren Programmen unterstützt.

Intel: Hand in Hand mit Cloudera

Seinen Ausflug in Hadoop-Regionen hat Intel im März 2014 nach einem Jahr bereits wieder beendet. Mit der "Intel Distribution for Hadoop Software" hatte das Unternehmen eine Big-Data-Software-Plattform auf Basis von Hadoop entwickelt. Sie setzte weitgehend auf der Software von Apache auf, inklusive YARN. Intel stimmte seine Hadoop-Version stark auf die hauseigenen Server-Prozessoren ab und implementierte eine Verschlüsselungsfunktion auf Basis des AES-Algorithmus (Advanced Encryption Standard). Im Februar 2014 stellte Intel zudem die Intel Data Platform vor. Auch sie setzte auf der Hadoop-Distribution des Herstellers auf.

Im März 2014 beteiligte sich Intel dann an Cloudera, einem der führenden Anbieter von Hadoop-Distributionen. Beide Unternehmen vereinbarten, ihre Entwicklungsbemühungen zu kombinieren und auf die Cloudera-Distribution zu konzentrieren. Cloudera wird demnach die Erweiterungen, die Intel entwickelt hat, in die eigene Hadoop-Software integrieren. Dazu zählt beispielsweise das Dateisystem Lustre, das im High-Performance-Computing-Bereich (HPC) Verwendung findet.

MapR - die M-Serie

MapR stellt laut einem Test von Flux7 eine Hadoop-Distribution zur Verfügung, die sich durch besonders hohe Performance auszeichnet. Dazu trägt das hauseigene File-System MapR-FS bei, das anstelle des Original-Dateisystems HDFS von Hadoop zum Zuge kommt. Weitere Besonderheiten sind die Unterstützung von NFS (Network File System), Änderungen an HBase, die sich in kürzeren Antwortzeiten niederschlagen, sowie die Option, unterschiedlichen Programmcode im Cluster laufen zu lassen.

Multi-Node-Direct-Access-NFS von MapR ermöglicht es, das Dateisystem von MapR als NFS-Ressourcen zu mounten. Dadurch können Anwendungen auf traditionelle Weise auf Hadoop-Daten zugreifen. Interessanterweise nutzen auch Amazon und Google die Technologie von MapR für ihre Hadoop-Angebote. Dennoch, so die Beratungsgesellschaft Forrester Research, gilt MapR im Vergleich zu Cloudera und Hortonworks immer noch als Geheimtipp. Was die Technologie betrifft, stuft Forrester das Unternehmen dagegen als einen der führenden Hadoop- Protagonisten ein.

MapR bietet derzeit drei Versionen seiner Distribution an. "M3" ist die kostenlose Standardversion von Apache Hadoop. "M5 Enterprise" bietet eine Verfügbarkeit von 99,999 Prozent und unterstützt Snapshots und Mirroring. Die "M7 Enterprise Edition" ist die leistungsstärkste Ausgabe, inklusive einer schnellen Online-Datenbank und einer Schnittstelle zu HBase, um Usern die Wahl zwischen mehreren Datenbanksystemen zu lassen.

Microsoft HDInsight

Mit "HDInsight Hadoop" stellt Microsoft eine Apache-Hadoop-Distribution über seine Cloud-Plattform Azure bereit. Auf der Entwicklerkonferenz "Build" gab Microsoft Anfang April 2014 in San Francisco bekannt, dass der Hadoop-Cloud-Service HDInsight Hadoop auf die aktuelle Version 2.2 upgedatet wurde. Zudem steht den Nutzern nun auch "Hadoop YARN" (Yet Another Resource Negotiator) zur Verfügung. Damit lassen sich auch Streaming-Daten verarbeiten.

Standardmäßig sind mit HDInsight Cluster bis zu 40 Datenknoten konfigurierbar. Ein Cluster aufzusetzen dauert nach Angaben von Microsoft etwa 15 Minuten. Wer mehr Knoten benötigt, muss den Support von Microsoft kontaktieren. Im Unterschied zur Original-Hadoop-Version empfiehlt Microsoft "dringend die Aufbewahrung Ihrer Daten in einem Azure-BLOB-Speicher [Binary Large Object, d. Red.] statt in HDFS". Microsoft führt folgende Gründe für die Abkehr vom Standard-Dateisystem an:

• Niedrigere Kosten: Bei Speicherung der Daten in einem Azure-BLOB-Speicher könne der User HDInsight-Knoten nach Bedarf erstellen und löschen. Da sich die Daten in einem BLOB befinden, muss das HDInsight-Cluster nicht die gesamte Zeit laufen. Nur bei Nutzung der Server fallen Kosten an.

• Elastische Datenskalierung: Der Azure-BLOB-Speicher bietet einen elastischen Datenspeicher. Das Speichern der Daten in einem Azure-BLOB ermöglicht eine Skalierung der Speicheranforderungen, ohne dass ein überdimensionierter Server-Cluster aufgebaut werden muss.

Microsoft fordert für einen Hauptknoten rund 355 Euro im Monat. Für einen Server-Knoten fallen 0,24 Euro in der Stunde beziehungsweise 178 Euro im Monat an. Hinzu kommen die Kosten für die Storage-Ressourcen und den Datentransfer.

Pivotal HD

Als Hadoop-Distribution, die im Gegensatz zur Standardversion der Software auch SQL-Datenbanken als Datenquellen nutzen kann, positioniert sich "Pivotal HD". Die Distribution basiert auf Hadoop 2.0 und verbindet EMCs Greenplum-Datenbank mit der Open-Source-Software. Die engen Bande zu EMC kommen nicht von ungefähr, weil Pivotal eine Ausgründung des Storage-Spezialisten ist.

Neben der Anbindung von SQL-Datenbanken zählen die "Hadoop Virtualization Extensions" (HVE) von VMware zu den Besonderheiten der Enterprise-Version von Pivotal HD. Damit lassen sich virtualisierte Cluster aufbauen. Die Kernkomponente von Pivotal HD ist jedoch "HAWQ", eine massiv-parallele Hadoop-SQL-Engine. Sie erlaubt schnelle SQL-Abfragen, und dies, obwohl als Dateisystem HDFS verwendet wird. HDFS wird laut einer Studie von IDC von vielen Hadoop-Anwendern als Bremsklotz betrachtet und häufig durch herstellerspezifische Dateisysteme ersetzt.

Derzeit konzentriert sich Pivotal auf kleine bis mittelgroße Hadoop-Installationen. Das soll sich nach den Plänen des Unternehmens jedoch ändern. Im Visier sind Großkunden, die derzeit vorzugsweise zu den Lösungen von Cloudera, MapR oder Hortonworks greifen - oder zu Big-Data-Komponenten, die nicht auf Hadoop basieren. Zu den Stärken des Anbieters zählt, dass er sich auf versierte Fachleute (von EMC) verlassen kann, die Kunden im Rahmen von Hadoop-Projekten unterstützen. Das gilt nicht nur für die Implementierung der Software, sondern auch für die Auswahl der entsprechenden Hardwarekomponenten. (pg)