Was ist Data Mining?

19.10.2021 von Thor Olavsrud
Data Mining kann Unternehmen im Datenzeitalter entscheidend voranbringen. Das müssen Sie zum Thema wissen.
Mit Hilfe von Data Mining können Unternehmen echten Mehrwert aus ihren Datenbergen herauslösen.
Foto: optimarc - shutterstock.com

Daten werden für Unternehmen immer wertvoller. Für "data driven" reicht es allerdings nicht, einfach nur Informationsberge anzuhäufen. Um Mehrwert aus Daten zu generieren, gilt es, Korrelationen, Muster und Trends aus den Informationsströmen herauszufiltern. An dieser Stelle kommt Data Mining ins Spiel.

Data Mining - Definition

Data Mining - manchmal auch "Knowledge Discovery" genannt - bezeichnet den Prozess, große Datenmengen auf Korrelationen, Muster und Trends zu untersuchen. Data Mining ist ein Teilbereich der Datenwissenschaft, neudeutsch Data Science, die statistische und mathematische Methoden mit Machine Learning und Datenbanksystemen kombiniert.

Die Special Interest Group on Knowledge Discovery and Data Mining (SigKDD) der Association for Computing Machinery definiert Data Mining als "die Wissenschaft der Extraktion nützlichen Wissens mit Hilfe von Computertechnologien aus umfassenden, digitalen Datenbeständen". Das Konzept des Data Mining entstand in den 1980er und 1990er Jahren - mit dem Aufkommen von Datenbankmanagement und ML-Techniken zur Ergänzung manueller Prozesse.

Die Begriffe Data Analytics und Data Mining werden oft durcheinandergebracht. Die Datenanalyse kann allerdings als Unterkategorie von Data Mining verstanden werden. Wie Datenvisualiserungsspezialist Tableau weiß, konzentriert sich Data Mining darauf:

Die Datenanalyse hingegen ist der Teil des Data Mining, der sich darauf konzentriert, Erkenntnisse aus den Daten zu gewinnen. Ihr Ziel ist es, statistische Analysen und Technologien auf Daten anzuwenden, um Trends zu erkennen und Probleme zu lösen.

Data Mining - Beispiele

Unternehmen aus einer Vielzahl von Branchen setzen Data Mining ein, um Einblicke in ihre Daten zu gewinnen und auf dieser Grundlage bessere Geschäftsentscheidungen zu treffen. Drei konkrete Beispiele für Data-Mining-Anwendungsfälle sind etwa:

Darüber hinaus gibt es zahlreiche weitere Use Cases für Data Mining. Die Technologie kann zum Beispiel:

Data Mining - Methoden

Beim Data Mining kommt eine Reihe von Methoden zum Einsatz. Laut dem Datenintegrations-Spezialisten Talend gehören folgende zu den gängigsten:

Data Mining - Prozess

Das sechsstufige Prozessmodell "Cross Industry Standard Process for Data Mining" (CRISP-DM) wurde im Jahr 1999 veröffentlicht. Das Ziel: Data-Mining-Prozesse branchenübergreifend zu standardisieren. Die sechs Phasen des CRISP-DM sind:

  1. Geschäftliches Verständnis: In dieser Phase geht es darum, Ziele, Anforderungen und Umfang des Projekts zu verstehen. Sie gliedert sich in vier verschiedene Aufgaben: die Geschäftsziele zu bestimmen, indem die Motivation der Stakeholder verstanden wird; die Situation bewerten, um die Verfügbarkeit von Ressourcen, den Projektbedarf, die Risiken und Eventualitäten zu bestimmen; Erfolg aus technischer Sicht definieren; detaillierte Pläne hinsichtlich Technologien und Tools erarbeiten;

  2. Datenverständnis: In der nächsten Phase geht es darum, die zur Erreichung der Projektziele erforderlichen Datensätze zu ermitteln, zu sammeln und zu analysieren. Auch diese Phase umfasst vier Tasks: die Ausgangsdaten zu sammeln; die Daten zu beschreiben; die Daten zu untersuchen; und die Datenqualität zu überprüfen;

  3. Datenvorbereitung: Die dritte und häufig längste Phase eines Projekts besteht aus fünf Aufgaben: Datensätze auswählen und Gründe für In- bzw. Exklusion dokumentieren; Daten bereinigen; Ableitung neuer Attribute aus vorhandenen Daten, um neue Daten zu konstruieren; Daten aus verschiedenen Quellen integrieren und formatieren;

  4. Modellierung: Die Erstellung von Datenmodellen umfasst vier Aufgaben: Modellierungstechniken auswählen; Testdesigns erstellen; Modelle erstellen; Modelle bewerten;

  5. Evaluierung: Während die Modellierungsphase die technische Modellbewertung umfasst, geht es in dieser Phase darum, zu bestimmen, welches Modell den Geschäftsanforderungen am besten entspricht. Sie umfasst drei Aufgaben: Ergebnisse bewerten; Prozess überprüfen; nächste Schritte festlegen;

  6. Deployment: In der letzten Phase geht es darum, das Modell in der Praxis umzusetzen. Hier sind vier Aufgaben vorgesehen: Einsatzplan für das Modell entwickeln und dokumentieren; Überwachungs- und Wartungsplan erstellen; Abschlussbericht erstellen und Projekt abschließend prüfen;

Mit Analytics Solutions Unified Method for Data Mining (ASUM-DM) hat IBM im Jahr 2015 eine Erweiterung veröffentlicht, die auf CRISP-DM aufbaut. Das Modell von Big Blue ergänzt die Deployment-Phase um die Bereiche Collaboration, Versionskontrolle, Security und Compliance.

Data Mining - Tools

Um ihre Data-Mining-Bemühungen zu unterstützen, stehen Unternehmen zahlreiche Software Tools zur Verfügung. Zu den beliebtesten Tools im Bereich Data Mining zählen unter anderem:

Data Mining - Jobs

Data Mining gehört im Regelfall zum Arbeitsalltag von Datenwissenschaftlern und Datenanalysten. Im Folgenden haben wir einige Jobprofile (und ihre durchschnittlichen Gehaltsspannen laut dem Karriereportal Stepstone) zusammengestellt, die mit Data Mining in Zusammenhang stehen können:

Dieser Beitrag basiert auf einem Artikel unserer US-Schwesterpublikation CIO.com. (fm)

Die gefragtesten IT-Jobs
Platz 1: Security-Experten
Experten in der IT-Security können mit einem Jahresgehalt von 74.300 Euro rechnen.
Platz 2: KI-Architekten
KI-Architekten verdienen durchschnittlich 69.500 Euro im Jahr.
Platz 3: DevOps Engineers
DevOps Engineers nehmen den dritten Platz im Gehaltsranking ein: 66.200 Euro im Jahr.
Platz 4: Data Scientists
Der beliebte Job des Data Scientist kann 65.500 Euro im Jahr versprechen.
Platz 5: Data Engineers
Data Engineers richten Datenbanken ein und bekommen dafür ein Jahressalär von 59.300 Euro.
Platz 6: Backend- und Frontend-Entwickler Fullstack
Entwickler im Back- und Frontend können mit 57.000 Euro im Jahr rechnen.
Platz 7: Web Developer
Web Developer entwickeln interne Netzwerke und können dafür bis zu 48.700 Euro verdienen.
Platz 8: Fachinformatiker für Daten und Prozessanalyse
Fachinformatiker und -informatikerinnen für Daten und Prozessanalyse verdienen im Schnitt 47.400 Euro.
Platz 9: Kaufleute für Digitalisierungsmanagement
Die neue Berufsbezeichnung "Kaufleute für Digitalisierungsmanagement" meint das Jobprofil des Informatikkaufmanns- beziehungsweise der -kauffrau und schneitet mit 45.750 Euro am schlechtesten im Ranking der beliebtesten IT-Berufe ab.