Analytics und Big Data

Diese Data Buzzwords sollten Sie kennen!

08.08.2016

Von

Wolfgang Herrmann war Editorial Manager CIO Magazin bei IDG Business Media. Zuvor war er unter anderem Deputy Editorial Director der IDG-Publikationen COMPUTERWOCHE und CIO und Chefredakteur der Schwesterpublikation TecChannel.

Fast Data

Das Buzzword mit der gefühlt höchsten Wachstumsrate heißt derzeit "Fast Data". Gemeint sind damit Daten, deren Nutzwert mit der Zeit abnimmt, erläutert Tony Baer, Principal Analyst beim amerikanischen Beratungsunternehmen Ovum. Er habe den Begriff bereits 2012 geprägt, wirft sich der Experte in die Brust. Im Prinzip geht es dabei etwa um Twitter Feeds und Streaming Data, die in Echtzeit erfasst und ausgewertet werden müssen. Auf diese Weise lassen sich unmittelbar Entscheidungen treffen oder Reaktionen anstoßen. Im Finanzsektor beispielsweise verlassen sich Trader auf komplexe Algorithmen für Realtime-Analysen. Auch der Hochfrequenzhandel würde ohne Fast Data nicht funktionieren.

Ermöglicht wurde der Siegeszug von Fast Data durch immer größere Bandbreiten, günstige Standardhardware und Realtime-Analytics-Systeme, so der Ovum-Experte. Für Nik Rouda, Senior Analyst bei der Enterprise Strategy Group, kann sich der Begriff auf mehrere Aspekte beziehen: schnelle Datenerfassung etwa, Streaming, schnelle Datenaufbereitung oder schnelle Analyse und User Response. "Zum größten Teil ist das Marketing-Hype", urteilt Rouda, doch der Fachbegriff zeige auf unterschiedliche Weise, wie wichtig das Thema Geschwindigkeit in diesem Umfeld sei.

Datenanalyse als Service
Analytics Tools aus der Cloud können den Einstieg in die Datenanalyse erleichtern. Sie erfordern keine Vorabinvestitionen im fünf- oder sechsstelligen Bereich und besitzen teilweise grafische Benutzeroberflächen, die es auch dem weniger versierten Anwender ermöglichen, Analyseprozeduren zu erstellen, die zu aussagefähigen Ergebnissen führen. Wir stellen fünf wichtige Big-Data-Tools vor, die Sie als Service aus der Cloud nutzen können.
AWS Elastic MapReduce
Seit der Version 4.1.0 von Amazon Elastic MapReduce lassen sich Cluster im laufenden Betrieb verkleinern.
Google Cloud Platform
Mit dem Google Cloud Launcher lässt sich ein Hadoop-Cluster mit wenigen Klicks einrichten.
Microsoft Azure
Ein Hadoop-Cluster ist in HDInsight von Microsoft in zirka 10 bis 15 Minuten verfügbar.
IBM Analytics
Beim Einrichten eines Hadoop-Clusters auf IBM Bluemix hat der Anwender die Wahl zwischen drei Cluster-Größen.
SAP HANA Cloud Platform
LubeInsights verknüpft Hadoop im SAP HANA und lädt nur aktuell benötigte Daten in die In-Memory-Datenbank.

Slow Data

Am anderen Ende der Skala findet sich "Slow Data". Wie der Name andeutet, handelt es sich um Daten, die in geringerem Tempo entstehen und in der Regel keine unmittelbare Analyse erfordern. Ovum-Analyst Baer nennt als Beispiel ein Monitoring-System für Meeresgezeiten. In den meisten Fällen bedarf es keiner Realtime-Updates. "Gelagert" werden Daten dieser Kategorie entsprechend eher in einem Data Lake für eine spätere Batch-Verarbeitung.

Small Data

"Small Data" ist "alles, was auf einen Laptop passt", sagt Gregory Piatetsky-Shapiro, Chef der Analytics-Beratungsfirma KDnuggets. Für Rouda macht der Begriff deutlich, dass viele Analysen noch immer anhand von wenigen Datenquellen gefahren werden, häufig auf einem Laptop mit leichtgewichtigen Apps - nicht selten schlicht mit Excel.

Medium Data

"Medium Data" liegt irgendwo zwischen den Extremen. Geht es um viele Petabyte an Daten, die mit Technologien wie Hadoop oder MapReduce analysiert werden, handelt es sich um Big Data, erläutert Baer. Viele analytische Probleme drehten sich aber gar nicht um Datenmengen im Petabyte-Bereich. Gehe es also eher um "mittelgroße" Datenbestände, die sich etwa mithilfe von Apache Spark auswerten lassen, handele es sich um Medium Data.

Dark Data

Dark Data beschreibt typischerweise Informationen, die übersehen oder zu wenig genutzt werden. "Man weiß nicht, dass sie vorhanden sind, wie darauf zugegriffen werden kann oder es gibt keine Erlaubnis für einen Zugriff", erklärt Rouda die verschiedenen Szenarien. In einigen Fällen gebe es schlicht noch keine Systeme für die Analyse. "Viel zu oft" finde sich Dark Data in klassischen Datenbanken, Data Warehouses und Data Lakes.

Derart zugangsbeschränkte oder unzureichend dokumentierte Datenbestände werden häufig als "Dark Web" bezeichnet, so Ovum-Experte Baer. Um Licht ins Dunkel zu bringen, brauche es in der Regel Data Discovery Services, die oft auf Machine-Learning-Konzepte zurückgreifen.

Dirty Data

Der Begriff Dirty Data ist in gewisser Weise wörtlich zu verstehen. Denn er beschreibt schlicht Datenbestände, die noch keinen Clean-Up-Prozessen unterzogen wurden. "Es liegt in der Natur der Sache, dass Dinge solange schmutzig sind, bis sie jemand reinigt", erklärt Baer. "Clean" seien Daten also erst, wenn sie diverse einschlägige Routinen durchlaufen hätten. Rouda zählt zu diesen Clean-Up-Prozessen beispielsweise Datenaufbereitung, -anreicherung und -transformation.

Die Begriffe rund um Big Data
Big Data - was ist das eigentlich? Jeder spricht drüber, jeder versteht etwas anderes darunter. Klicken Sie sich durch unser Glossar mit den wichtigsten und meistgenutzten Begriffen (manche sagen auch "Buzzwords") und verstehen Sie, was damit genau gemeint ist. <br /><br /> <em>zusammengestellt von <a href="http://www.kommunikation-in-sendling.com/" target="_blank">Kriemhilde Klippstätter</a>, freie Autorin und Coach (SE) in München</em>
Ad Targeting
Der Versuch, die Aufmerksamkeit des potenziellen Kunden zu gewinnen, meist durch "passgenaue" Werbung.
Algorithmus
Eine in Software gegossene mathematische Formel mit der ein Datensatz analysiert wird.
Analytics
Mit Hilfe von Software-basierenden Algorithmen und statistischen Methoden werden Daten interpretiert. Dazu benötigt man eine analytische Plattform, die aus Software oder Software plus Hardware besteht und die die Werkzeuge und Rechenpower bereitstellt, um unterschiedliche analytische Abfragen durchführen zu können. Es gibt eine Reihe unterschiedlicher Formen und Einsatzzwecke, die in diesem Glossar näher beschrieben sind.
Automatic Identification and Capture (AIDC)
Jede Methode der automatischen Identifizierung und Datensammlung über eine Gegebenheit und die nachfolgende Speicherung in ein Computersystem. Etwa die Informationen aus einem RFID-Chip, die ein Scanner ausliest.
Behavioral Analytics
Behavioral Analytics nutzt Informationen über das menschliche Verhalten, um die Absichten zu verstehen und zukünftiges Verhalten vorhersehen zu können.
Business Intelligence (BI)
Der generelle Ausdruck für die Identifizierung, Herkunft und Analyse der Daten.
Call Detail Record (CDR) Analyse
Diese enthält Daten, die die Telekommunikationsunternehmen über die Nutzung von Mobilfunkgesprächen – etwa Zeitpunkt und Dauer der Gespräche – sammeln.
Cassandra
Ein verteiltes Datenbank-Verwaltungssystem für sehr große strukturierte Datenbanken („NoSQL“-Datenbanksystem) auf Open-Source-Basis (Apache).
Clickstream Analytics
Bezeichnet die Analyse der Web-Aktivitäten eines Benutzers per Auswertung seiner Klicks auf einer Website.
Competitive Monitoring
Tabellen, in denen die Aktivitäten der Konkurrenz im Web automatisch gespeichert werden.
Complex Event Processing (CEP)
Ein Prozess, bei dem alle Aktivitäten in den Systemen einer Organisation überwacht und analysiert werden. Bei Bedarf kann sofort in Echtzeit reagiert werden.
Data Aggregation
Das Sammeln von Daten aus unterschiedlichen Quellen für die Erstellung eines Berichts oder für eine Analyse.
Data Analytics
Ein Stück Software, mit dem Informationen aus einem Datensatz gezogen werden. Das Ergebnis kann ein Report, ein Status oder eine Aktion sein, die automatisch gestartet wird.
Data Architecture and Design
Legt dar, wie Unternehmensdaten strukturiert sind. Meist erfolgt das in drei Prozessschritten: Begriffliche Abbildung der Geschäftseinheiten, logische Abbildung der Beziehungen innerhalb der Geschäftseinheit sowie die physikalische Konstruktion eines Systems, das die Tätigkeiten unterstützt.
Data Exhaust
Die Daten, die eine Person bei ihrer Internet-Aktivität "nebenbei" erzeugt.
Data Virtualization
Der Prozess der Abstraktion verschiedener Datenquellen durch eine einzige Zugriffsschicht auf die Daten.
Distributed Object
Ein Stück Software, das es erlaubt, mit verteilten Objekten auf einem anderen Computer zusammenzuarbeiten.
De-Identification
Das Entfernen aller Daten, die eine Person mit einer bestimmten Information verbindet.
Distributed Processing
Die Ausführung eines Prozesses über verschiedene per Netzwerk verbundene Computer hinweg.
Drill
Apache Drill ist eine Open-Source-SQL-Suchmaschine für Hadoop- und NoSQL-Datenmanagement-Systeme.
Hadoop
Ein freies, in Java geschriebenes Framework der Apache Foundation für skalierbare, verteilt arbeitende Software in einem Cluster. Es basiert auf dem bekannten MapReduce-Algorithmus der Google Inc. sowie auf Vorschlägen des Google-Dateisystems.
HANA
SAPs Software-und Hardware-Plattform mit In-Memory-Computing für Echtzeitanalysen und große Transaktionsvolumen.
In-Database Analytics
In-Database Analytics bezeichnet die Integration der Analysemethoden in die Datenbank. Der Vorteil ist, dass die Daten für die Auswertung nicht bewegt werden müssen.
In-Memory Database
Jedes Datenbanksystem, das den Hauptspeicher für die Datenspeicherung benutzt.
In-Memory Data Grid (IMDG)
Die verteilte Datenspeicherung im Hauptspeicher vieler Server für schnellen Zugriff und bessere Skalierbarkeit.
Machine-generated Data
Alle Daten, die automatisch von einem Rechenprozess, einer Applikation oder einer nicht-menschlichen Quelle erzeugt werden.
Map/reduce
Ein Verfahren, bei dem ein großes Problem in kleinere aufgeteilt und an verschiedene Rechner im Netz oder Cluster oder an ein Grid aus unterschiedlichen Computern an verschiedenen Standorten ("map") zur Bearbeitung verteilt wird. Die Ergebnisse werden dann gesammelt und in einem (reduzierten) Report dargestellt. Google hat sein Verfahren unter der Marke "MapReduce" schützen lassen.
Mashup
Dabei werden unterschiedliche Datensätze innerhalb einer Applikation so kombiniert, dass das Ergebnis verbessert wird.
NoSQL
Datenbanken, die nicht relational aufgebaut sind und mit denen sich große Datenvolumina handhaben lassen. Sie benötigen keine festgelegten Tabellenschemata und skalieren horizontal. Beispielsweise ist Apache Cassandra eine NoSQL.
Operational Data Store (ODS)
Darin werden Daten aus unterschiedlichen Quellen gesammelt damit noch weitere Operationen ausgeführt werden können, bevor die Daten in ein Data Warehouse exportiert werden.
Pattern Recognition
Die Klassifizierung von automatisch erkannten Mustern.
Predictive Analytics
Diese Form der Analytics nutzt statistische Funktionen in einem oder mehreren Datensätzen, um Trends oder zukünftige Ereignisse vorherzusagen.
Recommendation Engine
Per Algorithmus werden die Kundenbestellungen einer Website analysiert und sofort passende Zusatzprodukte ausgesucht und angeboten.
Risk Analysis
Die Anwendung statistischer Methoden auf einen oder mehrere Datensätze, um das Risiko eines Projekts, einer Handlung oder Entscheidung abschätzen zu können.
Sentiment Analysis
Dabei werden Einträge von Leuten in sozialen Netzwerken über ein Produkt oder ein Unternehmen statisch ausgewertet.
Variable Pricing
Dabei folgt der Kaufpreis eines Produkts dem Angebot und der Nachfrage. Das erfordert die Echtzeit-Überwachung von Konsum und Lagerbestand.
Parallel Data Analysis
Ein analytisches Problem wird in Teilaufgaben aufgebrochen und die Algorithmen werden auf jede Problemkomponente zeitgleich und parallel angewendet.
Query Anal
In diesem Prozess wird eine Suchanfrage optimiert, um das bestmögliche Ergebnis zu erhalten.
Reference Data
Daten, die ein physikalisch oder virtuell vorhandenes Objekt und seine Eigenschaften beschreiben.