Tipps und Tricks

10 Dinge, die Sie über Big Data wissen sollten

22.05.2015

Von

Thomas Joos ist freiberuflicher IT-Consultant und seit 20 Jahren in der IT tätig. Er schreibt praxisnahe Fachbücher und veröffentlicht in zahlreichen IT-Publikationen wie TecChannel.de und PC Welt.

Tipps für Big Data-Projekte

Unternehmen sollten sich im Klaren sein, welche Daten sie erfassen und welche Ergebnisse sie erzielen wollen. Für Big Data sollten möglichst viele bis alle Daten erfasst werden können. Im Gegensatz zu BI-Lösungen sollten sich Verantwortliche nicht in Nebensächlichkeiten verstricken, sondern immer das große Ganze sehen.

Sehr wichtig, vor allem bei der Verarbeitung von Daten aus sozialen Netzwerken, ist der DatenschutzDatenschutz. Hier sollten Entwickler und Verantwortliche sehr sensibel vorgehen, aber nicht gleich ganze Datensammlungen ausklammern. Gesammelt und verarbeitet sollten aber nur Daten werden, die den Zielen des Big-Data-Projektes entsprechen. Alles zu Datenschutz auf CIO.de

Die Hardware und die Big-Data-Lösung sollten nicht nur erste Daten zuverlässig verarbeiten können, sondern als skalierbare Lösung mit den Daten mitwachsen können. Am besten geeignet sind dazu sicher Cloud-Lösungen bekannter Hersteller wie MicrosoftMicrosoft, AmazonAmazon oder GoogleGoogle. Alles zu Amazon auf CIO.de Alles zu Google auf CIO.de Alles zu Microsoft auf CIO.de

Benutzer-Schnittstelle berücksichtigen: Wichtig ist, dass die Anwender im Unternehmen etwas mit den Daten anfangen und diese selbständig auslesen und analysieren können. Die Daten sollten von überall zugreifbar sein, durchaus auch mobil.

Big-Data-Leitfaden

Der Branchenverband BITKOM bietet eine kostenlose PDF-Datei, die als Leitfaden für Big Data-Projekte verwendet werden kann. Unternehmen sollten sich den Leitfaden ansehen, bevor sie sich entschließen ein erstes Big- Data-Projekt in Angriff zu nehmen.

Big Data mit Microsoft Azure

Um Big Data im Unternehmen einzusetzen, können Sie mit HDInsight einen Hadoop-Cluster in Microsoft Azure erstellen. Auf diesen Cluster können Sie mit herkömmlichen Microsoft-Mitteln wie C#, PowerShell oder Visual Studio zugreifen. Auch mit der PowerShell können Sie den Dienst steuern und sogar MapReduce-Abfragen durchführen.

Mit dem Azure SDK und den Azure Tools können Sie HDInsight-Cluster mit HDInsight Tools für Visual Studio steuern und Abfragen erstellen. Damit verwalten Sie nicht nur den Speicher, sondern erstellen auch Hive-Abfragen und überwachen Hive-Jobs.

Hadoop-Cloud-Lösung offline testen

Um sich mit Hadoop und Big Data zu beschäftigen, ist HDInsight der schnellste Weg. Microsoft stellt für Entwickler eine Offline-Testumgebung für HDInsight zur Verfügung. Mit dieser Umgebung bauen Sie schnell und einfach eine Offline-Umgebung auf, können für Big Data entwickeln und die Daten anschließend in die Cloud hochladen.

Big Data
Unternehmen sollten sich im Klaren sein, welche Daten sie erfassen und welche Ergebnisse sie erzielen wollen. Für Big Data sollten möglichst viele bis alle Daten erfasst werden können. Im Gegensatz zu BI-Lösungen sollten sich Verantwortliche nicht in Nebensächlichkeiten verstricken, sondern immer das große Ganze sehen.
Big Data
Der Branchenverband BITKOM bietet eine kostenlose PDF-Datei, die als Leitfaden für Big Data-Projekte verwendet werden kann.
Big Data
Mit Hadoop und HDInsight in Microsoft Azure können Sie Big Data auch in der Microsoft Cloud betreiben.
Big Data
Um sich mit Hadoop und Big Data zu beschäftigen, ist HDInsight der schnellste Weg. Microsoft stellt für Entwickler eine Offline-Testumgebung für HDInsight zur Verfügung.
Big Data
Um Big Data-Lösungen zu nutzen, benötigen Sie in den meisten Fällen eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken, beispielsweise MongoDB.
Big Data
Wer sich etwas mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit weiteren Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Opensource-Pridukten zur Verfügung, zum Beispiel Apache Giraph.
Big Data
Microsoft noch das kostenlose ebook „Introducing Microsoft Azure HDInsight“ zur Verfügung. Diese bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen.
Big Data
HBase kann als Datenbank für Big Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern.
Big Data
Die meisten Unternehmen nutzen für die Verarbeitung von Big Data vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache Projekt. Apache Mahout erlaubt eine bessere Verwaltung der Daten in Hadoop.
Big Data
Cloudlösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services, werden oft nach Datenvolumen berechnet und Berechnungsdauer. Entwickler sollten in die Abfragen und die Big Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big Data-Umgebungen einbeziehen.

NoSQL-Datenbanken nutzen

Um Big Data-Lösungen zu nutzen, benötigen Sie in den meistens eine NoSQL-Datenbank, zusätzlich zu vorhandenen Datenbanken. Diese NoSQL-Datenbanken dienen als Speicherpunkt und zur Verwaltung der Big Data-Infrastruktur. Viele NoSQL-Datenbanken stehen kostenlos als Open SourceOpen Source zur Verfügung. Beispiele dafür sind MongoDB, Cassandra und HBase. HBase steht als Datenbank auch in Microsoft Azure für HDInsight zur Verfügung. Alles zu Open Source auf CIO.de

Apache Giraph nutzen

Wer sich etwas mit Big Data bereits auseinandergesetzt hat und Lösungen in diesem Bereich einsetzt, kann die Umgebung mit zusätzlichen Möglichkeiten erweitern. Auch hier steht eine Vielzahl an Open-Source-Produkten zur Verfügung, zum Beispiel Apache Giraph. Giraph verbessert das Analysieren verbundener Strukturen und sozialer Graphen und bietet daher eine ideale Ergänzung, wenn in der Big Data-Lösung auch Daten sozialer Netze analysiert werden müssen.

MapReduce-Aufträge einfacher erstellen

Um Daten in Big Data-Lösungen wie Hadoop zu verarbeiten, benötigen Entwickler MapReduce-Aufträge. Diese lassen sich mit verschiedenen Werkzeugen übertragen, auch mit Windows Azure HDInsight über die PowerShell . Zusätzlich stellt Microsoft noch das kostenlose ebook "Introducing Microsoft Azure HDInsight" zur Verfügung. Dieses bietet einen idealen Einstieg in die Möglichkeiten von Big Data, HDInsight und Hadoop, auch für andere Plattformen.

Apache HBase und Storm gemeinsam nutzen

HBase kann als Datenbank für Big Data-Lösungen genutzt werden. Diese Technologie baut auf Google Big Table auf und kann sehr große Datenmengen speichern. Storm gehört ebenfalls zu diesem Projekt und unter das Apache-Dach. Storm ist ein Echtzeitverarbeitungs-System, dass neben der Analyse von Daten auch die Ausgabe erlaubt, während die Berechnung im Hintergrund weiter läuft.

Die besten Erweiterungen für Big Data - Mehr Daten schneller verarbeiten

Die meisten Unternehmen nutzen für die Verarbeitung von Big Data vor allem Hadoop-Distributionen oder Cloud-Lösungen. Die meisten Tools und Distributionen gehören zum Apache Projekt. Es lohnt sich daher durchaus einen Blick auf Apache-Projekte zu nehmen und sich verschiedene Tools anzusehen. Bekannte sind zum Beispiel:

• Apache Ambari - Verwaltungslösung für Hadoop

• Apache Sqoop - Lösung für das Transportieren von Daten zwischen Hadoop und anderen Datenspeichern.

• Apache Pig - Plattform um parallele Abfragen durchführen zu können, während die Verarbeitung der Daten noch läuft.

• Apache ZooKeeper - Tool zum Synchronisieren und Verwalten von Hadoop-Clustern

• Apache Mahout - Bessere Verwaltung der Daten in Hadoop.

• Apache Lucene /Apache Solr - Tools für das Indexieren von Text in Big Data-Lösungen

• Apache Avro - Data Serialization System für Big Data-Lösungen

• Oozie - Workflows in Big Data-Umgebungen erstellen.

• GIS Tools - Tools für die bessere Verwaltung von geographischen Daten in Big Data.

• Apache Flume - Logfiles in Hadoop verwalten, aggregieren und verarbeiten. Auch die Sammlung ist möglich.

• Apache Spark - Daten schneller verarbeiten.

Die Kosten bei Big Data-Clustern in Cloud beachten

Cloud-Lösungen bei Microsoft Azure, Google Cloud Platform oder Amazon Web Services, werden oft nach Datenvolumen berechnet und Berechnungsdauer. Entwickler sollten in die Abfragen und die Big Data-Anwendungen daher auch das Herunterfahren und Ausschalten von Big Data-Umgebungen einbeziehen. Bereits bei der Entwicklung können auf diesem Weg sehr hohe Kosten entstehen.

Der Autor dieses Artikels hat zum Beispiel nur aus Testzwecken bei Amazon Web Services einen Hadoop-Cluster erstellt, ohne Daten und großartige Berechnungen. Fällig waren dafür recht schnell 400 Euro. Das zeigt, dass bei Big Data-Projekten auch sehr schnell große Kosten entstehen können, die Unternehmen nicht außer Acht lassen und Entwickler berücksichtigen müssen. Aus diesem Grund macht auch die Offline-Entwicklung von Big Data-Lösungen Sinn und erst bei Inbetriebnahme die Übertragung in die Cloud.