Vom Hype zur Umsetzung

Checkliste für die Big-Data-Strategie

05.09.2012 von Andreas Dietze und Curt Cramer
Analysen großer Datenmengen etwa auf Basis von Hadoop erfordern neue Herangehensweisen. Was zu tun ist, erklären Andreas Dietze und Curt Cramer von Roland Berger in ihrer Kolumne.
Andreas Dietze ist Partner im Competence Center InfoCom bei Roland Berger Strategy Consultants.
Foto: Roland Berger

Großrechner, Desktop-Clients, Smartphones, Selbstbedienungsautomaten und eingebettete Systeme in Kraftfahrzeugen oder Flugzeugen - all diese Systeme erzeugen enorme Datenmengen, die wertvolle Informationen über Geschäftsprozesse, Produkte und Kunden enthalten. Obwohl günstige Infrastrukturen die Verarbeitung dieser Datenmengen ermöglichen, nutzen Unternehmen diese Informationen noch nicht systematisch, um sich Wettbewerbsvorteile zu verschaffen.

Einer der Hauptgründe: Die Datenverarbeitungsprinzipien haben sich nur wenig an die geänderten Rahmenbedingungen angepasst. Die heute in Unternehmen eingesetzten relationalen Datenbanken beruhen auf einem Modell, das bei Schreib- und Lesezugriffen absolut zuverlässig ist. Doch dieses Modell ist für große Datenmengen im Tera- oder sogar Petabyte-Bereich nicht ausgelegt. Derartige Systeme lassen sich nur durch die Erweiterung der Komponenten des Datenbankservers skalieren ("scale up"), wodurch sie in ihrer Größe begrenzt sind.

Big Data geht neue Wege

Big Data bricht mit dieser Tradition und etabliert ein neues Datenverarbeitungsprinzip, das voraussetzt, dass die vorhandene Datenbasis nur gelesen und nicht verändert wird. Die Verarbeitung wird dabei so aufgeteilt, dass die Infrastruktur flexibel an die Problemgröße angepasst werden kann ("scale out"). Google hat diesen Ansatz als Kern seiner Produktionsinfrastruktur unter dem Namen "MapReduce" entwickelt. Daraus entstand das populäre Open-Source-Projekt "Hadoop" - heute der Standard für die Big-Data-Technologie.

Die Vorteile dieser Technologie liegen auf der Hand: die Möglichkeit, große Datenvolumina (Petabyte-Bereich) zu verarbeiten, und die Flexibilität bei der Auswahl der Basis-Infrastruktur. Von der einfachen, kostengünstigen Commodity-Hardware bis hin zu einer Cloud-basierten Infrastruktur sind hier keine Grenzen gesetzt. So bieten zum Beispiel "Amazon Web Services" und in Kürze auch "Microsoft Azure" vorkonfigurierte Hadoop-Umgebungen an.

Curt Cramer ist Projektleiter im Competence Center InfoCom bei Roland Berger Strategy Consultants.
Foto: Roland Berger

Auch China Mobile, der größte chinesische Mobilfunkprovider, hat eine Hadoop-basierte Lösung entwickelt, um etwa die Verbindungsdaten hinsichtlich des Nutzungsverhaltens und der Abwanderungswahrscheinlichkeit seiner Kunden zu analysieren. Diese Auswertungen unterstützen das Marketing und tragen zur Verbesserung der Netze und der Servicequalität bei. Denn die zuvor eingesetzte "scale up"-Lösung ermöglichte es dem Unternehmen, die Daten von nur etwa zehn Prozent der Kunden auszuwerten.

Dank der Hadoop-basierten Lösung wurden zwei Ziele erreicht: Alle Verbindungsdaten konnten ausgewertet werden und zeitgleich konnte die Firma die Kosten senken. Durch den Einsatz der Commodity-Hardware kostete die neue Lösung etwa ein Fünftel der bisherigen Lösung - und das bei einer deutlich besseren Leistung.

Geringe Zahl an Fallstudien erschwert Big-Data-Vermarktung

Trotz technologischer Vorteile haben sich Big-Data-Ansätze noch nicht im Markt durchsetzen können. So geht das IT-Marktforschungsunternehmen Gartner davon aus, dass sich lediglich 20 Prozent der aktuellen Big-Data-Initiativen im Implementierungsstadium befinden. Und im Jahr 2015 werden sich erst circa 15 Prozent der Unternehmen auf die Verarbeitung großer Datenmengen eingestellt haben.

Eine der großen Hürden beim Markterfolg von Big Data sind die mangelnden Fallbeispiele aus verschiedenen Bereichen - Big Data ist für die meisten nicht greifbar genug. Es fehlen konkrete Anwendungsbeispiele, die den Mehrwert dieser Technologie tatsächlich belegen. Dennoch haben einige Unternehmen und Institutionen bereits angekündigt, verstärkt auf Big Data setzen zu wollen:

Mit Hadoop Betrugsfälle erkennen

Eine weitere Hürde auf dem Weg zum Big-Data-Erfolg stellt die aktuelle Marktlage für entsprechende IT-Lösungen dar. Mehrere Dienstleister bieten momentan Lösungen auf Hadoop-Basis. Dazu gehören Firmen wie Cloudera, Hortonworks, Datameer und HStreaming, aber auch große Namen wie IBM und EMC.

Doch die Anbieter stoßen alle an eine wichtige Grenze: Keiner besitzt standardisierte Industrielösungen, die sich schnell an die Kundenbedürfnisse anpassen lassen. Oft müssen diese Lösungen erst in gemeinsamen Kundenprojekten entwickelt werden, da sich die Anbieter auf die Anpassung der Basis-Technologien rund um Hadoop spezialisiert haben.

IT und Fachbereiche noch nicht auf Big Data ausgerichtet

Um einen Big Data-Ansatz umzusetzen, müssen auf Anwenderseite die IT-Experten des Unternehmens andere Fähigkeiten besitzen als für Systeme, die eine Datenverarbeitung nach heutigen Standards unterstützen. Dabei sind drei Aspekte besonders relevant: die Datenanalyse, die Datenvisualisierung und die technischen Fähigkeiten.

Das Big-Data-Modell unterscheidet sich grundlegend von dem etablierten relationalen Datenmodell.
Foto: Roland Berger Strategy Consultants

Eine Datenverarbeitungsaufgabe umfasst normalerweise eine Analyse in Form einer Standardabfrage in ausgereiften und nutzerfreundlichen BI-Programmen und eines anschließenden Standardberichts. Für eine Big- Data-Anwendung muss der Analyst zunächst die Datenquellen bestimmen und so aufbereiten, dass sie automatisiert weiterverarbeitet werden können. Der Analyst muss daher Säuberungsregeln, Datenformate und die wichtigsten Kenngrößen unter den vielen Datenquellen im Vorfeld festlegen. Dieser explorative Ansatz unterscheidet sich von dem heute üblichen, standardisierten Vorgehen.

Visualisierung statt standardisierter Berichte

Die Visualisierung spielt hierbei eine besondere Rolle: Berichte helfen heute, Analyseergebnisse in einheitlicher Form an die Entscheider zu kommunizieren. Bei der Entwicklung einer Big-Data-Anwendung greift aber der Analyst nicht auf standardisierte Berichte zurück, sondern nutzt die Visualisierung als Hilfsmittel, um statistische Muster und Verläufe schnell erkennen zu können. Erst im nächsten Schritt kann er dem Kunden durch Standardberichte Fakten präsentieren, die aus verschiedenen Datenquellen zusammengesetzt sind.

Für einen Hadoop-basierten Analyseansatz benötigen die Experten aber gute Kenntnisse des Frameworks selbst sowie angrenzender Technologien (HDFS, HBase, Hive, Mahout). Diese Fähigkeiten sind jedoch nicht nur für die Analyse erforderlich, sondern auch schon im Vorfeld, um die Big-Data-Ansätze zu bewerten. Unternehmen können heute intern nicht auf die entsprechenden Ressourcen zurückgreifen. Denn die notwendigen Technologien wurden nicht von den führenden Datenbankherstellern entwickelt; Unternehmensmitarbeiter kennen sich folglich nicht damit aus. CIOs sollten daher Innovationsimpulse sowohl in ihren IT-Bereich als auch in die Fachbereiche geben.

Schritt für Schritt zur Big-Data-Strategie

Unabhängig von der heutigen Verfügbarkeit von Out-of-the-Box-Lösungen müssen Unternehmen frühzeitig eine Strategie entwickeln, um ihre Daten sinnvoll zu nutzen. Eine "Data Due Diligence" hilft dabei, die wesentlichen strategischen Fragen zu beantworten.

Eine Checkliste:

  • Welche Herausforderungen soll die Datennutzung lösen?

  • Warum sollen diese Herausforderungen gelöst werden? Wie sieht der Business-Case aus?

  • Welche Daten benötigt das Unternehmen dafür?

  • Welche Daten liegen heute in welchen Systemen vor? Ist der Detailgrad ausreichend?

  • Welche der erforderlichen Daten werden heute noch nicht systematisch erfasst?

  • Können die fehlenden Daten als Nebenprodukt bestehender Prozesse erzeugt werden? Oder sind neue Erfassungswege dafür erforderlich?

Entsprechend lassen sich dann die wichtigsten Eckpunkte einer Infrastrukturstrategie definieren. Diese umfasst mehrere Aspekte:

Infrastruktur: eine klassische "Make or Buy"-Entscheidung

Unternehmen sollten daher zuerst eine umfassende Bestandsaufnahme im Rahmen einer "Data Due Diligence" erstellen. Dabei können sie wirtschaftlich sinnvolle Ansätze identifizieren, die Technologiefrage klären und dann erste Schritte für eine Pilotumsetzung in die Wege leiten.

Andreas Dietze ist Partner und Curt Cramer Projektleiter im Competence Center InfoCom bei Roland Berger Strategy Consultants.