| Inhalt dieses Artikels: | |
| Open-Source-Suiten und Rapid Miner erfüllen nicht die Erwartungen | |
| Große Datenmengen | |
29.12.2008, von Tanja Wolff
Beim Test mit großen Datenvolumina veränderte sich die Performance von KXEN Analytic Framework auch bei gestiegenen Datenmengen kaum. Bei anderen Produkten gestaltete sich bereits das Einlesen der Daten problematisch und erforderte teilweise langwierige manuelle Eingriffe. In SAP Net Weaver beispielsweise muss für jedes Attribut ein separates Infoobjekt angelegt werden. Auch die anschließende Berechnung deskriptiver Statistiken und der Aufbau grafischer Darstellungen nahm bei einigen Produkten sehr viel Zeit in Anspruch.
Die Laufzeiten der eigentlichen Data-Mining-Analyse schließlich stiegen je nach verwendetem Verfahren häufig überproportional an. Jedes weitere in die Berechnung eingehende Attribut fügt dem Algorithmus eine zusätzliche Dimension hinzu. Insbesondere Rapid Miner fiel diesbezüglich mit sehr langen Laufzeiten von mehr als drei Stunden bis zu Abbrüchen wegen Hauptspeicherüberlaufs auf. Mit KXEN nahm die Analyse des kompletten Datensatzes hingegen weniger als zehn Minuten in Anspruch.
Im Anwendungstest zeigte sich, dass die Bedienung dank grafischer Benutzeroberflächen grundsätzlich leichter von der Hand geht als noch vor wenigen Jahren. Dennoch erfordern insbesondere die Data-Mining-Suiten im Vergleich zu spezialisierten Werkzeugen nicht nur einen erhöhten Einarbeitungsaufwand, sondern auch fundiertes Hintergrundwissen. Dazu kommt, dass Anwender aus den Fachabteilungen meist andere Anforderungen an die Bedienung stellen als IT-Nutzer. Rapid Miner und KXEN versuchen diesem Umstand Rechnung zu tragen, indem sie beispielsweise Assistenten anbieten, die eine feste Abfolge an Analyseschritten vorgeben und die erforderlichen Eingaben dazu systematisch abfragen.
Für die Studie "Data Mining Software 2009" wurden zwölf Data-Mining-Suiten und -Werkzeuge einem Funktionsvergleich unterzogen. Vier der Lösungen durchliefen zudem einen detaillierten Praxistest. Ziel der Studie ist es, Unternehmen bei der Tool-Auswahl im stark diversifizierten Software-Markt für Data Mining (DM) zu unterstützen.
| Inhalt dieses Artikels: | |
| Open-Source-Suiten und Rapid Miner erfüllen nicht die Erwartungen | |
| Große Datenmengen | |
![]() | Seite: 1 | 2 |
| ||||