Neues Analyse-Paradigma

Best Practices bei der Datenanalyse

18.12.2007 von Alexander Galdy

Data Mining ist komplex, zeitaufwändig, nur von Experten beherrschbar und deshalb teuer. Das muss nicht sein, denn es geht auch anders. Ermöglichen soll das ein neuer Analyse-Ansatz, wie das Beraterhaus Mayato berichtet. Das Zauberwort lautet Self-Acting Data Mining. Mithilfe innovativer Algorithmen werden die zahlreichen Schritte der herkömmlichen Daten-Analyse automatisiert und dadurch die Projektdauer deutlich verkürzt.

Bisher wird der Großteil der Daten wie die über Kunden in Unternehmen nicht ausgewertet. Nur ein kleiner Teil wird den Entscheidern zum Beispiel über Online-Analytical-Processing-Analysen (OLAP) zugänglich gemacht. Viele wertvolle Informationen bleiben deshalb ungenutzt, obwohl der Konkurrenzdruck das eigentlich nicht zulässt.

Entscheidungsrelevantes Wissen ist eine essenzielle Unternehmens-Ressource.

Im Customer Relationship Management (CRM) ist die Versorgung mit relevanten Informationen besonders wichtig. Sie liegen in vielen Unternehmen in Form von unausgewerteten Daten bereits vor. Dieser Rohstoff muss nur noch zutage gefördert werden und zu Wissen veredelt werden.

Die Situation ist paradox: Einerseits fallen bei immer mehr alltäglichen Geschäftsaktionen in vielen Branchen nahezu automatisch große Datenmengen an - Gartner prognostiziert bis 2009 einen weltweiten Anstieg auf rund 220 Millionen Terabyte. Die Voraussetzungen für Unternehmen, daraus etwas über ihre Kunden zu lernen, waren nie besser.

Anderseits liegt das große Potenzial dieser Daten meistens brach. Die Informationen werden nicht ausgewertet. Stattdessen verursachen sie als nutzlose Datenfriedhöfe Kosten in erheblicher Höhe. Nach Experten-Schätzung werden nur fünf bis zehn Prozent aller gesammelten Daten überhaupt analysiert. Gleichzeitig steigt der Bedarf an Wissen stark an. Um dieses Missverhältnis auszugleichen, müssen die Daten mit geeigneten Methoden in Wissen überführt werden. Dabei ließen sich bisher zwei verschiedene Arten unterscheiden: Konfirmative und explorative Datenanalysen.

Der klassische Prozess einer Datenanalyse.

Hat man eine konkrete Vorstellung davon, welche Fragestellung durch eine Datenanalyse beantwortet werden soll, ist die konfirmative die richtige Wahl. Diese Art der Analyse ist die "Spitzhacke im Datenbergbau". Sie liefert nur dann gute Ergebnisse, wenn der Anwender genau weiß, wo er nach interessanten Informationen suchen muss, um beim Verglich zu bleiben, auf Gold-Nuggets zu stoßen. Der Suchraum dabei ist stark begrenzt, außerdem müssen solche Analysen manuell durchgeführt werden. Die heute üblichen Datenmengen sind so nicht zu stemmen.

Self-Acting Data Mining im automatisierten Prozess.

Abhilfe verspricht eine explorative Datenanalyse, sprich Data Mining. Damit können große Datenmengen nahezu autonom nach neuen Zusammenhängen und Mustern durchsucht werden. Wegen seiner Charakteristik eignet es sich laut Mayoto besonders gut als vorgeschaltetes Verfahren, beispielsweise vor OLAP oder einer statistischen Analyse. Problem ist aber die hohe Ineffizienz: Der Prozess der Datenanalyse kostet Zeit, erfordert langjährige Erfahrung und erschwert es enorm, Projektlaufzeiten und erzielbare Ergebnisse vorherzusagen.

Bisher fehlte eine Lösung, die die aufwändigsten Schritte automatisiert, den Analyseprozess vereinfacht und so auch kleinere und mittlere Analyseprojekte rentabel werden lässt. Seit Kurzem gibt es aber ein neues Paradigma, das an den alten Schwachstellen ansetzt, um die Effizienz und die Anwendbarkeit von Data Mining zu erhöhen: die hoch automatisierten Verfahren des Self-Acting Data Mining. Dabei spielen die dort eingesetzten Algorithmen eine entscheidende Rolle.

Das Grundprinzip ist folgendes: Das Abbild der in den Daten gefundenen Muster ist ein Kompromiss zwischen der Gültigkeit der Ergebnisse im aktuellen Analysefall (interne Validität) und der Übertragbarkeit der Ergebnisse auf neue, unbekannte Daten (externe Validität). Beim traditionellen Data Mining muss die Balance zwischen diesen beiden Extremen für jeden Analysefall durch Feinjustierung der Parameter-Einstellungen immer wieder neu gefunden werden. Das zieht zahlreiche Wiederholungsschleifen nach sich und das wiederum kostet viel Geld.

Beim Self-Acting Data Mining erfolgt die Bildung von Mustern komplett automatisiert, indem sie in ein mathematisches Optimierungsproblem umgewandelt wird. Die Fehler der beiden Größen externe und interne Validität werden mehrdimensional gemessen und beide gleichzeitig minimiert. Vor allem durch die Reduzierung der Daten-Modifikation von 75 Prozent auf fünf Prozent kommt eine spürbare Zeitersparnis zustande.

Self-Acting Data Mining, traditionelles Data Mining und OLAP Hand in Hand.

Durch die Fähigkeit, extrem große Datenmengen ohne Vorauswahl der Datenfelder oder eingängige manuelle Prüfung zu analysieren, kommt Self-Acting Data Mining dem Ideal der vollständig hypothesenfreien Datenanalyse näher als jeder bisher bekannte Ansatz. Es eignet sich daher für eine erste, schnelle und kostengünstige Datenanalyse in noch unbekannten Datenmengen. In manchen Fällen bleibt eine OLAP-Analyse zur Hypothesenprüfung im Anschluss sinnvoll. Für komplexe Fälle kann immer noch eine traditionelle Data Minig-Analyse zwischengeschaltet werden.

Für die zukünftige Entwicklung bedeutet das wegen des Zeitgewinns bei der Musterbildung eine Vervielfachung der Data Mining-Modelle. Dadurch rücken dann andere Aufgaben in den Vordergrund, die bisher weniger im Mittelpunkt standen. Die automatisierte Anwendung, Prüfung und Pflege einer großen Zahl von Modellen wird stark an Bedeutung gewinnen.

Hier sind die Software-Hersteller gefragt, denn es lohnen sich bereits kleine Automatisierungs-Fortschritte. Auch sie sorgen zu einer signifikanten Verbesserung der Effizienz. Dazu gehört auch die stärkere Integration der Analyseumgebung in die operativen Systeme, damit die gewonnenen Erkenntnisse so schnell wie möglich umgesetzt werden können.

Mayato beschreibt den neuen Analyseansatz in seinem Whitpaper "Self-Acting Data Mining: Das neue Paradigma der Datenanalyse". Die Studie ist das Ergebnis eines Research-Projektes aus der Mayato-Denkfabrik Think.