5 Tipps zur Big-Data-Herangehensweise

BI-Dogmen sind realitätsfern

20.02.2013 von Klaus-Dieter Schulze

Bisherige BI-Verheißungen wurden nicht eingelöst. Und Big Data verschärft die Probleme nur noch weiter. Es wird Zeit, die Business-Intelligence-Hausaufgaben anzugehen. Klaus-Dieter Schulze und Carsten Dittmar von Steria Mummert zeigen, wie das gehen kann.

Klaus-Dieter Schulze ist Senior Executive Manager bei Steria Mummert Consulting.
Foto: Steria Mummert

Die meisten Unternehmen kämpfen schon heute mit komplexen BI-Lösungen und zugrundeliegenden Data Warehouse-Landschaften. Lösungsansätze, wie zum Beispiel Enterprise Data Warehouse, Analytical Data Marts oder Real Time Dashboards standen daher auch im scheinbar schon längst vergessenen Zeitalter von 'Small' Data auf der Agenda des CIO. Aber trotz reifer BI-Technologien und hoher Investitionen, sind in der Regel die in der Planung einhergehenden Versprechungen entsprechender Lösungsansätze nicht realisiert worden.

Denn entlang der klassischen Paradigmen, wie beispielsweise der physischen Datenintegration in einem zentralem (Core) Data Warehouse zur Schaffung eines Single Point of the Truth, sind in der Regel zentralistische und starre Lösungen zur Datenbereitstellung und Datenanalyse entstanden. Sind entsprechende Lösungen im Anwendungsfeld des klassischen Reportings noch adäquat, zeigt sich, dass die Komplexität der Gesamtlösung durch die Anzahl der darüber hinaus gehenden analytischen Anwendungen jedoch überproportional steigt.

So bestehen zwischen flexiblen Ad-hoc-Analysen, dem Erfüllen feststehender regulatorischer Berichtspflichten oder dem sekundengenauen Logistik-Tracking große Unterschiede hinsichtlich Reaktionszeiten, Datenvolumen, Änderungsdynamik, der Anzahl an nötigen Datenquellen und dem benötigten BI-Funktionsbedarf. Mit der Zeit entstand neben der zentralistischen Lösung eine Vielzahl von zusätzlichen analytischen Silos - in der Regel aufgrund der Heterogenität der Anforderungen.

Einhaltung derDogmen im BI-Umfeld immer schwieriger

Dadurch wird die Einhaltung der aus der Theorie bekannten klassischen Dogmen im BI-Umfeld immer schwieriger. Vielmehr findet man in der Realität regelmäßig Informationssilos und heterogene Architekturen sowie ein unkontrolliertes Wachstum von Spread Marts. In Folge dessen entwickeln sich Inkonsistenzen, und die fachliche und technische Transparenz über die Datenbewirtschaftung und Datenauswertung nimmt kontinuierlich ab.

Carsten Dittmar ist Senior Manager Enterprise Information Management bei Steria Mummert Consulting.
Foto: Steria Mummert

Die Gesamtlösung verliert in den Augen der Endanwender die notwendige Akzeptanz und die Bereitschaft sinkt, in weiteren BI-Projekten mitzuwirken. Im Gegenteil: Aus der Unzufriedenheit heraus entstehen neue isolierte Bypass-Lösungen für weitere spezielle Anwendungsfelder, die die Komplexität und Intransparenz weiter steigern.

Für die BI-Verantwortlichen ergibt sich daraus eine besonders herausfordernde Situation: Zeigt der Blick in den Rückspiegel, dass die Versprechen auf Basis einer idealistischen Theorie leider nicht gehalten werden können, steigt hinsichtlich der Zukunft die Unsicherheit, wie der zu erwartende Tsunami an Informationen beherrschbar bleibt und die richtige Roadmap zwischen nachhaltigen Innovationen und übertriebenen Hypes gefunden werden kann.

Big Data dehnt analytische Spielwiese weiter aus

Klassische theoretische BI-Dogmen stehen im Widerspruch zur Realität.
Foto: Steria Mummert Consulting

Unter Big Data versteht man Methoden und Technologien für die hochskalierbare Erfassung, Speicherung und Analyse polystrukturierter Daten. Aus dieser Definition wird deutlich, dass Big Data nicht ausschließlich auf Volumen abzielt. Variety und Velocity bilden weitere Charakteristika. Durch das Sammeln großer Datenmengen sowie die komplexe Analyse und Echtzeitintegration von Daten verschiedenster Struktur und Herkunft werden die Herausforderungen von 'Small' Data jedoch verschärft und offenkundig.

Mit dem Einsatz analytischer Plattformen jenseits der klassischen relationalen Datenbanksysteme wird die Gesamtarchitektur heterogener und das Spektrum der Anwendungsgebiete wird mit den Möglichkeiten durch Social Media Analytics weiter ausgedehnt.

Lösung: "Analytical Ecosystem of the Future" aufbauen

Big Data: Mehr Daten, mehr Datentypen und schnellere Reaktionszeiten
Foto: Steria Mummert Consulting

Um in Zukunft neben Small auch Big Data gerecht zu werden, ist es an der Zeit bestehende Paradigmen auf den Prüfstand zu stellen und sich neuen Denkmustern zu widmen. Abstrakt braucht es ein neues analytisches Ökosystem, das aus flexiblen Elementen besteht, die bei definierten Freiheitsgraden miteinander agieren. Die dispositiven BI-Systeme sollten sich demzufolge in der Zukunft von starren und zentralistischen Strukturen und IT-Architekturen lösen.

Technische Auswirkungen neuer Denkmuster

Der Ansatz von mehr Freiheit und Heterogenität wirkt sich auf alle Dimensionen bestehender BI-Landschaften aus. Die technische Architektur erlaubt bewusst mehrere analytische Datenpools. Unterschiedliche Anwendungen können auf die polystrukturierten Daten in unterschiedlich benötigter Granularität zugreifen. So können zum Beispiel auch unstrukturierte Daten in Analysen einfließen und nicht alltägliche Nutzeranforderungen erfüllt werden. Es gibt nicht mehr die eine BI-Lösung, mit der alle Anwender klarkommen müssen ('One Size fits all').

Die physische Integration der Daten wird dabei zugunsten einer logischen Integration nicht mehr zwingend vorgeschrieben. Damit steigt die Bedeutung der Metadaten und kann sich nicht mehr nur auf die Ablage von allein technischen Metadaten beschränken.

Big-Data-fähige BI-Systeme sollten weniger starr und zentralistisch aufgebaut sein.
Foto: Steria Mummert Consulting

BI-Systeme der Zukunft werden mit vielen optionalen Komponenten zur Verfügung gestellt. Sie bieten bestimmte Leistungen zur Datenbereitstellung und -analyse in Form definierter Services. Je nachdem, was ein Anwender vorhat, stellt er eine Lösung durch eine Kombination einzelner Bausteine zusammen. Dies bedingt eine definierte technische Heterogenität mit unterschiedlichen Speicher-, Integrations- und Analysetechnologien.

Eine übergreifende Governance verwaltet diese Technologien und sorgt für Transparenz. Die technische Standardisierung wird Bottom-up organisiert. Definierte Frameworks übernehmen die Datenintegration. Oberstes Ziel bleibt die Flexibilität der Lösung, so dass auch temporäre Lösungen und Prototypen ihre Existenzberechtigung im "Analytical Ecosystem" besitzen und sich neue Datenquellen und -typen schnell einpassen lassen.

Servicekatalog als fest definierte BI-Grundlage

Feste BI-Leistungen als Fundament für Spezialanforderungen.
Foto: Steria Mummert Consulting

Um die internen BI-Dienstleistungen flexibel zu strukturieren und trotzdem keinen Wildwuchs zu schaffen, bietet es sich an, feste Angebote in einem Servicekatalog zusammenzustellen. Sie bilden eine definierte Grundlage, um daraus individuelle BI-Services anzubieten. Einzelne User-Gruppen erhalten entsprechend ihrer organisatorischen Rolle ausgesuchte Servicepakete.

Es gibt eine klare Definition definierter Leistungen und Verantwortlichkeiten. Dieses Vorgehen spart Kosten, da spezialisierte Services in den Katalog aufgenommen werden und sich so wiederverwenden lassen. Das schafft Flexibilität, um Anforderungen rasch und effizient umsetzen zu lassen.

Selbst ist der BI-User

Noch flexibler wird das Analytical Ecosystem im Big Data-Zeitalter, wenn fachliche Nutzer in bestimmten Fällen selbst auf Quelldaten zugreifen und Auswertungen durch eigene Daten anreichern können.

Umsetzen lässt sich das durch Self Service BI. Dabei wird Self Service BI ganz unterschiedlich interpretiert. Reicht für manch einen Hersteller schon die Tatsache, dass der Endanwender Berichte oder Dashboards selber im definierten Rahmen modifizieren oder selbst ad-hoc erzeugen kann, sehen andere die Möglichkeiten zur Integration von privaten, lokalen Daten bis hin zur Modifikation und Erzeugung von eigenen Datenmodellen als entscheidendes Kriterium für Self Service BI.

Welche Variante auch immer gewählt wird, dahinter steht immer der Wunsch der Fachanwender auf "ihre" Daten selbst mit hohen Freiheitsgraden zuzugreifen und nicht den gegebenenfalls mühsamen, abstimmungsintensiven und vor allem langwierigen Weg über das offiziellen Demand Management zu gehen.

In dem Zusammenhang werden häufig für dedizierte Anwendungsfälle sogenannte (temporäre) Sandboxes erstellt. Mit ihnen werden bestimmte Anwendungen bewusst vom Rest der übrigen BI-Systeme getrennt. In dieser Umgebung können Anwender ihre Auswertungen frei ddurchführen und mit den Daten interaktiv ohne Auswirkungen auf den übrigen analytischen Plattformen arbeiten. Diese technische Methode eignet sich beispielsweise für Ad-hoc-Reports und Monitorings, bei denen die Anforderungen schnell wechseln oder im Sinne des Prototyping erst noch konkretisiert werden müssen.

Dies ist ein wichtiger Schritt von der standardisierten Berichterstattung hin zu maßgeschneiderten Lösungen. Er bietet dem Business-Anwender Flexibilität bei der Verknüpfung neuer Daten. Die Zahl der erstellten Standard-Reports, die gegebenenfalls ihren ursprünglichen Sinn schon nicht mehr decken wenn sie im Betrieb ausgeliefert werden, reduziert sich dadurch.

Vier Typen von Sandboxes

Virtual DW Sandbox
Eine Partition oder Sammlung von Tabellen für individuelle Analysen innerhalb des Data Warehouse (DW). Analysten können Daten aus externen Quellen und dem DW in die Sandbox laden und dort kombiniert auswerten.

Free-Standing Sandbox
Vom DW separiertes, für komplexe analytische Abfragen optimiertes System, das auch gegebenenfalls extern gehostet werden kann. Das System kann auf Replikaten des DW aufsetzen oder über eigene, gegebenenfalls multidimensionale Strukturen verfügen.

In-Memory BI Sandbox
BI-Tools ermöglichen Analysten die einfache Datenintegration aus unterschiedlichsten Quellen, unterstützen schnelle Datenverknüpfungen, bieten extrem schnelle Antwortzeiten in Analysen und visuelle Interaktionen mit den Ergebnissen.

Hadoop
Atomare (Web-) Daten - in der Regel in unstrukturierter Form - können von Experten direkt in komplexen Modellen und Auswertungen verwendet werden, ohne diese zuvor in einem DW einzulagern und zusammenzufassen.

Analytical Sandboxes erlauben temporäre Datenbereitstellung für BI Self Services

Damit keine BI-Schattensysteme entstehen und die Mitarbeiter lieber die vorhandene Infrastruktur nutzen, sollte der Aufbau von Sandboxes definierten Regeln unterliehen. Eine solche BI Governance schafft die notwendige Transparenz. Self Service BI-Anwendungen sollten zudem keine direkte Anbindung an OLTP-Systeme besitzen und keine Daten an andere IT-Anwendungen weitergeben.

Fazit: Entscheidungsfähigkeit über die Informationsvielfalt stellen

Ob Big Data oder Small Data, letztendlich verfolgen alle Unternehmen ein Ziel: aus der Vielfalt gesammelter Daten klug werden, um daraus eine wirtschaftlichen Nutzen zu erzielen. Damit Analysten durch das Plus an Informationen, die Tools für sie sammeln, auch nützliche Erkenntnisse gewinnen und nicht bloß immer neue Datensilos entstehen, braucht es mehr Flexibilität und Effizienz im Datenmanagement.

Es kommt darauf an, die Entscheidungsfähigkeit über die Informationsvielfalt zu stellen. Die Herausforderung liegt im Umgang mit den Informationen. Die Frage, mit welchen Kennzahlen die Manager ihr Unternehmen steuern wollen, ist eine fachliche Herausforderung und keine technische.

Häufig kommt es vor, dass zwei Manager über die Cross-Selling-Quote sprechen, aber beide verschiedene Definitionen im Kopf haben und so zu unterschiedlichen Schlussfolgerungen kommen. In den entsprechenden BI-Programmen sollten deshalb die Dimensionen Organisation und Fachlichkeit die Technik dominieren.

Der Weg zum "Analytical Ecosystem of the Future" ist lang und nur mit vielen kleinen Umbauschritten zu erreichen. Der erste beginnt in den Köpfen mit einer Veränderung des BI- und DW-Verständnisses.

5 Tipps zum Herangehen an das Thema Big Data

1. Zeitliche Relevanz prüfen. Ist Big Data jetzt schon ein Thema für uns?
Dazu gehört nicht nur die generelle Frage, ob, sondern auch wann Big Data ein Thema wird – also wann die Zukunft für Unternehmen richtig beginnt. Ist die Zeit beispielsweise für das Anwendungsunternehmen schon reif für Social Media als etablierten Servicekanal? Bei näherem Hinsehen kommen Unternehmen häufig zum Ergebnis: Big Data steckt noch früh im Hype Cycle. Speziell Unternehmen wie Facebook, Google und Co., deren Marktleistung die Erzeugung von Information selbst darstellt, sind da sicherlich die Early Adaptors.

Bei einem mittelständischen Maschinenbau-Unternehmen besteht dagegen womöglich im Moment noch keine Relevanz. Insofern ist eine breite Adaption und Produktivität erst in einigen Jahren zu erwarten. Laut Gartner werden 2015 erst rund 15 Prozent der Unternehmen ihre Dateninfrastruktur anpassen, um sich für die Nutzung extrem großer polystrukturierter Datenmengen zu rüsten.

2. Inhaltliche Relevanz prüfen: Welche Daten brauche ich, und woher stammen sie?
Beim Sammeln der Daten ist es wichtig, genau hinzuschauen und zu definieren, woher man eigentlich seine Big Data bezieht und welche man wirklich anzapfen möchte. In Zeiten von Social Media wollen Unternehmen zum Beispiel wissen, was über sie in Microblogs wie Twitter und Social Networks wie Facebook und Xing gesprochen wird. Für andere sind Foren, insbesondere relevante Fachforen, Content-Communities wie YouTube oder flickr sowie klassische Onlinemedien relevante Quellen, um Trend rechtzeitig zu erkennen.

Für Händler ist die Quellenauswahl und -analyse zur Sammlung von Netzinhalten zudem eine zentrale Fragestellung für die Suchmaschinenoptimierung und die Clickstream-Analyse. Interessant ist zudem zu wissen, wie verlässlich die Quellen sind und wie häufig sich Inhalte und Community ändern.

3. Rechtliche Hürden bei Integration von Big und Small Data beachten
Die Verknüpfung (Integration) größerer Datenmengen, beispielsweise das Auslesen von Facebookseiten und Small Data, beispielsweise der internen Kundendatei, wird aus Datenschutzgesichtspunkten in speziellen Branchen kritisch bewertet. Legale Rahmenbedingungen sind noch nicht endgültig definiert. Eine Reform des Datenschutzrechts wird gefordert, der möglicherweise weniger Spielraum lässt, bestimmte Informationen für Analysen zu einzusetzen

4. Analyse von Big Data benötigt Kontextbezug
Jede Branche hat einen eigenen Kontext, der in Metadaten angereichert wird. Die Festlegung auf den relevanten, branchenspezifischen Kontext ist Voraussetzung, um ein zielorientiertes Filtern und Analysieren zu erlauben. Die Kontexteinordnung hilft bei der Kommunikation zwischen Mensch und Maschine, um den richtigen Inhalt in einer Datensammlung auszuwählen. Bei Big Data sollte eine definierte und etablierte BI-Governance die Rolle der Kontexteinordnung übernehmen.

5. Den Business Case für Big Data suchen
Unternehmen sollten immer genau prüfen, wie das Plus an Daten einem geschäftlich nutzt. Im Moment wird häufig noch eine sehr techniklastige Diskussion geführt. Letztendlich ist aber entscheidend, dass die Qualität der Entscheidung steigt. Das ist bei einer Quantitätssteigerung nicht immer zwingend der Fall. Manchmal bringt die Mikroauswertung von Kundenrezensionen keine besseren Erkenntnisse als der grobe Trend von Aussagen, um die nötigen Anpassungen am Produkt oder der Dienstleistung vorzunehmen.

Klaus-Dieter Schulze ist Senior Executive Manager und Carsten Dittmar Senior Manager - Enterprise Information Management bei Steria Mummert Consulting.