Neues Analyse-Paradigma

Best Practices bei der Datenanalyse

18.12.2007, von Alexander Galdy

Drucken |  Versand |  PDF
Der klassische Prozess einer Datenanalyse.Vergrößern
Der klassische Prozess einer Datenanalyse.

Hat man eine konkrete Vorstellung davon, welche Fragestellung durch eine Datenanalyse beantwortet werden soll, ist die konfirmative die richtige Wahl. Diese Art der Analyse ist die "Spitzhacke im Datenbergbau". Sie liefert nur dann gute Ergebnisse, wenn der Anwender genau weiß, wo er nach interessanten Informationen suchen muss, um beim Verglich zu bleiben, auf Gold-Nuggets zu stoßen. Der Suchraum dabei ist stark begrenzt, außerdem müssen solche Analysen manuell durchgeführt werden. Die heute üblichen Datenmengen sind so nicht zu stemmen.

Self-Acting Data Mining im automatisierten Prozess.Vergrößern
Self-Acting Data Mining im automatisierten Prozess.

Abhilfe verspricht eine explorative Datenanalyse, sprich Data Mining. Damit können große Datenmengen nahezu autonom nach neuen Zusammenhängen und Mustern durchsucht werden. Wegen seiner Charakteristik eignet es sich laut Mayoto besonders gut als vorgeschaltetes Verfahren, beispielsweise vor OLAP oder einer statistischen Analyse. Problem ist aber die hohe Ineffizienz: Der Prozess der Datenanalyse kostet Zeit, erfordert langjährige Erfahrung und erschwert es enorm, Projektlaufzeiten und erzielbare Ergebnisse vorherzusagen.

Bisher fehlte eine Lösung, die die aufwändigsten Schritte automatisiert, den Analyseprozess vereinfacht und so auch kleinere und mittlere Analyseprojekte rentabel werden lässt. Seit Kurzem gibt es aber ein neues Paradigma, das an den alten Schwachstellen ansetzt, um die Effizienz und die Anwendbarkeit von Data Mining zu erhöhen: die hoch automatisierten Verfahren des Self-Acting Data Mining. Dabei spielen die dort eingesetzten Algorithmen eine entscheidende Rolle.

Das Grundprinzip ist folgendes: Das Abbild der in den Daten gefundenen Muster ist ein Kompromiss zwischen der Gültigkeit der Ergebnisse im aktuellen Analysefall (interne Validität) und der Übertragbarkeit der Ergebnisse auf neue, unbekannte Daten (externe Validität). Beim traditionellen Data Mining muss die Balance zwischen diesen beiden Extremen für jeden Analysefall durch Feinjustierung der Parameter-Einstellungen immer wieder neu gefunden werden. Das zieht zahlreiche Wiederholungsschleifen nach sich und das wiederum kostet viel Geld.

Beim Self-Acting Data Mining erfolgt die Bildung von Mustern komplett automatisiert, indem sie in ein mathematisches Optimierungsproblem umgewandelt wird. Die Fehler der beiden Größen externe und interne Validität werden mehrdimensional gemessen und beide gleichzeitig minimiert. Vor allem durch die Reduzierung der Daten-Modifikation von 75 Prozent auf fünf Prozent kommt eine spürbare Zeitersparnis zustande.

zurueck
Seite: 1 | 2 | 3
weiter
Weitere Inhalte zu:
Data Mining, Mayato, Datenanalyse, Self-Acting Data Mining
Informationsvorsprung sichern - CIO-Newsletter bestellen
CIO-Exklusiv
CIO Wirtschaftsmeldungen
CIO-Exklusiv Blackberry
Healthcare-IT Newsletter
CIO Security Newsletter
Dynamic IT Newsletter
Whitepaper Newsletter
IT-Berater Newsletter
Retail-IT Newsletter
Finance-IT Newsletter
CIO Karriere Newsletter
SAP Newsletter
Meine E-Mail-Adresse:
Abschicken
Bitte achten Sie auf die korrekte Schreibweise Ihrer E-Mail-Adresse.
Kostenlose Newsletter von CIO.de
Exklusiv
Exklusiv Blackberry
Wirtschaftsmeldungen
Karriere
Security
Dynamic IT
Healthcare IT
Whitepaper
IT-Berater
Retail-IT
Finance-Forum
SAP

10 Jahre CIO-Magazin in Bildern

CIO Plus App
Am 29. September feierte das CIO-Magazin in Bonn den 10. Geburstag.

In unsere Sonderausgabe für das iPad finden Sie alle Bilder und alle Videos von der feierlichen Geburtstagsgala.

» Jetzt die App herunterladen




SERVICE