| Inhalt dieses Artikels: | |
| Open-Source-Suiten und Rapid Miner erfüllen nicht die Erwartungen | |
| Große Datenmengen | |
29.12.2008, von Tanja Wolff
KXEN Analytic Framework überzeugt als Werkzeug für automatisiertes Data Mining. Im Vergleich mit zwölf Data-Mining-Suiten behauptete sich die Software hinsichtlich Effizienz, Bedienbarkeit, Performance bei großen Datenmengen und Geschwindigkeit der Modellerstellung. Das ist das Ergebnis einer Studie des BI-Beratungshaus Mayato.
Laut der Untersuchung ließen sich die qualitativ hochwertigsten Modelle mit SAS erstellen. Open-Source-Suiten wie Rapid Miner blieben hinter den Erwartungen zurück. Durch flexiblere Preismodelle der Anbieter rückt das bisher als kostenintensiv und risikobehaftet geltende Data Mining auch für Mittelständler in den Fokus.
Neben den kommerziellen Data-Mining-Suiten SAS Enterprise Miner und Clementine von SPSS untersuchte die Studie die drei Open-Source-Suiten Rapid Miner, KNIME und Weka. Eine weitere Kategorie bestand in schlankeren Data-Mining-Werkzeugen mit reduzierter Funktionalität, die in der Regel auf bestimmte Anwendungsgebiete wie Controlling oder auf Analyseszenarien wie Prognose- und Klassifizierungsaufgaben spezialisiert sind. Dazu zählen Viscovery SO Mine 5.0, Prudsys Disvoverer 5.5 und Bissantz Delta Master 5.3.6. Eine Sonderstellung in der Kategorie nimmt das Self-Acting Data Mining am Beispiel von KXEN Analytic Framework ein. Der hochautomatisierte Ansatz kommt weitgehend ohne manuelle Datenvorverarbeitung und Parametrisierung aus. Weiterhin wurden die integrierten BI-Lösungen Oracle 11g Data Mining, SAP Net Weaver 7.0 Data Mining Workbench und Microsoft SQL-Server 2005 Analysis Services geprüft.
Für die Studie wurden KXEN Analytic Framework, Rapid Miner, SAS und SAP Net Weaver zusätzlich anhand von Testdatensätzen detailliert auf ihre Praxistauglichkeit untersucht. Kriterien wie Geschwindigkeit, Automatisierungsgrad und Ergebnisqualität testeten die BI-Experten zunächst mittels einer überschaubaren Testdatei mit 30000 Datensätzen und 15 Variablen. Das Systemverhalten bei großen Datenmengen wurde anschließend durch Einlesen eines umfangreichen Datenvolumens mit 100.000 Datensätzen und 450 Variablen gemessen. Die Palette der Benchmark-Daten enthielt eine Reihe typischer Probleme für DM-Tools.
Schon im ersten Durchgang ergaben sich erhebliche Unterschiede in den Laufzeiten, die sich bei der Verarbeitung größerer Datenmengen noch verstärkten. Dem SAS Enterprise Miner gelang insgesamt die beste Modellqualität. Die Ergebnisqualität bei Rapid Miner fiel im Vergleich ab, insbesondere die Übertragbarkeit der Modelle erwies sich als gering. KXEN konnte eine gute Modellqualität vorweisen und zeigte sich zudem bei der Berechnung als unerreicht schnell. Resultate und Laufzeit der Modelle in SAP Net Weaver waren guter Durchschnitt.
| Inhalt dieses Artikels: | |
| Open-Source-Suiten und Rapid Miner erfüllen nicht die Erwartungen | |
| Große Datenmengen | |
| Seite: 1 | 2 | ![]() |
| ||||