Einstiegsgehalt und Stundensätze

Was ein Data Scientist können sollte und was er verdient

Werner Kurzlechner lebt als freier Journalist in Berlin und stellt regelmäßig Rechtsurteile vor, die Einfluss auf die tägliche Arbeit von Finanzentscheidern nehmen. Als Wirtschaftshistoriker ist er auch für Fachmagazine und Tageszeitungen jenseits der IT-Welt tätig.
Christiane Pütter ist Journalistin aus München. Sie schreibt über IT, Business und Wissenschaft. Zu ihren Auftraggebern zählen neben CIO und Computerwoche mehrere Corporate-Publishing-Magazine, vor allem im Bereich Banken/Versicherungen.
Data Scientists sind heiß begehrt: Experten erläutern eine Rolle, die sich zwischen Big Data, Analytics und Business Intelligence angesiedelt ist.
  • Aktuell verlangen freie Big Data-Spezialisten 89 Euro pro Stunde
  • Die Hochschule der Medien (HdM) in Stuttgart bietet berufsbegleitend eine Weiterqualifikation "Data Science and Business Analytics" an
  • Die Rolle eines Data Scientist ist noch immer nicht klar definiert
Laut Stundensatzkalkulator von Gulp muss man für einen Big Data-Spezialisten mit 89 Euro rechnen.
Laut Stundensatzkalkulator von Gulp muss man für einen Big Data-Spezialisten mit 89 Euro rechnen.
Foto: Gulp

89 Euro. So viel verlangen IT-FreiberuflerIT-Freiberufler laut der Vermittlung Gulp aktuell für eine Arbeitsstunde, wenn sie sich auf Big DataBig Data spezialisiert haben. Werden alle Stundensätze der IT-Freien zusammengezählt, ergibt sich mit 83 Euro ein niedrigerer Wert. Diese Zahlen alleine verrät, dass Spezialisten in diesem Bereich gesucht sind - Data Scientists zum Beispiel. Das GehaltGehalt bei Festangestellten sollte dementsprechend angesetzt werden. Alles zu Big Data auf CIO.de Alles zu Freiberufler auf CIO.de Alles zu Gehalt auf CIO.de

Laut einer aktuellen Studie des US-amerikanischen Beraters Winter Wyman unter rund 620 IT-Positionen beziehen Big Data-Engineers bis zu 15.000 US-Dollar Jahresgehalt mehr als Spezialisten für das User Interface und bis zu 27.000 US-Dollar mehr als Software-Engineers.

Das Problem vieler Unternehmen: Sie wissen zwar, dass sie Datenkönner benötigen; aber nicht unbedingt ist ihnen klar, was genau die Könner können sollten und wie man sie findet. Immerhin gibt es derzeit eine Reihe grundlegender Antworten auf diese drängenden Fragen, zum Beispiel den BI-Experten Wolfgang Martin und Peter Lehmann, Professor an der Hochschule der Medien (HdM) in Stuttgart.

Die Nöte der Unternehmen gründen offenbar darin, dass dem Jobprofil etwas Unwirkliches anhaftet. Man kreuze ein Schaf, ein Huhn und eine Kuh, und schon hat man immer Wolle, Eier und Milch. Klappt halt nicht.

Die analytischen Fertigkeiten eines Wissenschaftlers und die Kreativität eines Künstlers kombiniert die Idealbesetzung am besten noch mit IT-Know-how. Einstein, Michelangelo und Bill Gates in einem, das wär's. Aber gibt's diesen Superhelden? Anders betrachtet spricht selbstverständlich nichts dagegen, dass Informatiker analytische Begabung mitbringen. Und kaum etwas, dass viele von ihnen auch kreativ Probleme lösen können. Die benötigten Fertigkeiten in ihrem Zusammenspiel müssen gleichwohl ausgebildet werden.

Professor Peter Lehmann (Hochschule der Medien) zufolge qualifizieren sich vor allem Bewerber aus dem Business zum Data Scientist weiter.
Professor Peter Lehmann (Hochschule der Medien) zufolge qualifizieren sich vor allem Bewerber aus dem Business zum Data Scientist weiter.
Foto: Peter Lehmann

So bietet die Hochschule der Medien in Stuttgart eine berufsbegleitende Weiterbildung "Data Science and Business Analytics" an. Dazu Professor Peter Lehmann: "Die Bewerber kommen zu achtzig Prozent aus dem Business und nicht aus der IT! Das haben wir so nicht erwartet, aber ich freue mich darüber sehr." Wie stark der Bedarf an solchen Spezialisten ist, zeigt sich an der Liste der Unterstützer: der Pharmakonzern Roche hat am Inhalt der Weiterbildung mitgearbeitet, abgestimmt wurde das Ganze auch mit so unterschiedlichen Firmen wie DaimlerDaimler, BoschBosch, LufthansaLufthansa, Otto und der Swiss Re. Top-500-Firmenprofil für Bosch Top-500-Firmenprofil für Daimler Top-500-Firmenprofil für Lufthansa

Außerdem bietet in Deutschland beispielsweise das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) in Sankt Augustin bei Bonn entsprechende Schulungen an. Und die potenziellen Anwender von Big Data müssen wissen, wohin sie mit der Datenanalyse eigentlich wollen.

BI-Experte Wolfgang Martin weiß, dass die Rolle eines Data Scientist noch der Definition bedarf.
BI-Experte Wolfgang Martin weiß, dass die Rolle eines Data Scientist noch der Definition bedarf.
Foto: Wolfgang Martin

BI-Spezialist Wolfgang Martin umreißt die Rolle eines Data Scientists so: Er oder sie

- verantwortet die aus dem CTF abgeleitete Methodologie von Big-Data-Analytik im Unternehmen,

- arbeitet gemäß Donohos "Greater Data Science (GDS)", das beinhaltet Datenexploration und Datenvorbereitung, Datenpräsentation und Transformation, Durchführung der notwendigen Rechenoperationen und Anwendung der entsprechenden Algorithmen, Datenmodellierung (im Rahmen der Data-Scientist-Projekte) und Datenvisualisierung.

- "Der Data Scientist kommuniziert die Projektergebnisse in einfacher, klar verständlicher Sprache vor allem auch mit Hilfe von Anekdoten und liefert einfach verständliche und nachvollziehbare Sachverhalte, die auf Fakten basierende Unternehmensentscheidungen erlauben", erklärt Martin. Und weiter: "Er oder sie ist maßgeblich beteiligt bei der Auswahl von Technologien für Big-Data-Analytik, die möglichst bimodal einsetzbar sein sollen."

- Außerdem haben Data Scientists eine Schnittstelle zum Datenschutzbeauftragten, der über die Einhaltung der gesetzlichen Regelungen bei der Datenbeschaffung und Analyse wacht. Gemeinsam sollten sie sich als "Anwälte von Big-Data-Ethik" verstehen, fordert Martin.

Der Berater Jonathan Hassell erklärt auf unserer Schwesterpublikation cio.com: "Der perfekte Kandidat ist ein Zahlengenie und ein Gelehrter in Firmenpolitik, der mit statistischen Computersprachen umgeht wie ein Konzertpianist". Aber es sei schwierig, dieses Ideal in eine praktische Jobbeschreibung und die dazu passenden Suchkriterien zu übersetzen. Der Experte empfhielt für die Rekrutierung eine enge Zusammenarbeit zwischen IT und Personalabteilung. Er nennt fünf Punkte, auf die es zu achten gilt:

1. Statistisches Verständnis: Ein Data Scientist muss aus einer Fülle von Daten die nützlichen Informationen filtern und dabei mit Zahlenbergen so versiert sein, dass Trends frühzeitig erkannt werden. Ein Hochschulabschluss in Mathematik wäre wünschenswert, meint Hassell. Es sei aber davon auszugehen, dass die meisten Kandidaten praktischere Bildungswege eingeschlagen hätten - Informatik oder Ingenieurswissenschaften in aller Regel.

"Lassen sie sich nicht abschrecken, wenn Bewerbern fortgeschrittene Mathematikkenntnisse fehlen", rät Hassell. "Ein Augenmerk auf Statistik in der akademischen Karriere sollte für die Rolle ausreichen - egal ob auf Bachelor-Niveau oder höher."

2. Neugierde ist essenziell: Hassell lobpreist die Wissbegierde potenzieller Data Scientists; er meint damit das, was gemeinhin als Kreativität bezeichnet wird. Um der Aufgabe gerecht werden zu können, müssen Datenbankabfragen nämlich nicht nur umgesetzt werden. Der Datenspezialist sollte weiterdenken, selbst die richtigen Fragen konzipieren, auf die sonst im Unternehmen niemand kommt und die Gewinnchancen eröffnen.

Hassell empfiehlt, diese Fähigkeit anhand hypothetischer Szenarien im Vorstellungsgespräch zu testen. "Man sollte den Bewerbern dabei sagen, dass Denken abseits ausgetrampelter Pfade erwünscht ist und Antworten nicht auf die Problemstellung verengt werden sollten", so der Berater.

3. Fachwissen über Datenbanken: Ein guter Data Scientist kennt sich mit dem Design und der Implementierung von Datenbanken aus - auch wenn das nicht zur oberflächlichen Betrachtung von Big Data passt. "Auch wenn unter diesem Begriff insbesondere unstrukturierte Daten subsummiert werden, hilft ein grundlegendes Verständnis sowohl relationaler als auch säulenartiger Datenbanken weiter", so Hassell.

Big Data möge sexy sein, aber viele nützliche Informationen und Trends könnten aus traditionellen Datenbanken destilliert werden. Kenntnisse in diesem Bereich seien auch sinnvoll, um neue, anspruchsvollere Systeme aufsetzen zu können.

Hinzu komme, dass viele Entwickler von Big Data-Software bewusst SQL-ähnliche Sprachen verwenden. Klassische Administratoren sollen nämlich nicht verschreckt werden, wenn sie sich nicht auf MapReduce einlassen wollen. "Traditionelles SQL-Wissen wird weiter Dividenden abwerfen", meint Hassell.

4. Basisfertigkeiten in Skriptsprachen: Die besten Bewerber beherrschen nach Einschätzung von 82 Ventures auf alle Fälle die im Big Data-Umfeld angesagte Skriptsprache Python. "Python ist eine Open Source-Sprache, die als leicht verständlich und praktisch in der Anwendung gilt", erläutert Hassell. "Sie sollte keine allzu hohe Hürde darstellen." Professor Lehmann nennt auch R, da diese Sprache in der BI-Software von SAP, Microsoft und Co sehr gut integriert ist.

Testen könne man außerdem grundsätzlich, wie Bewerber mit Pseudo-Codes umgehen oder ob sie Algorithmen und Abfragen in normaler Sprache erklären können, fügt Hassell an. Können sie das, sollte die Aneignung von Sprachkenntnissen kein Problem sein. Auch Martin und Lehmann betonen, dass es nicht auf die Sprache allein ankommt - sondern auf die Integration in die Tools.

5. Kein Lohndumping: "Man sollte nicht versuchen, unter marktüblichem Tarif zu bezahlen", schreibt Hassell. "Sogar Startups entlohnen Data Scientists erklecklich und ermöglichen ihnen die Arbeit an spannenden Produkten."

Professor Lehmann von der HdM resümmiert: "Data Science ist nichts für Ungeduldige. Ein Data Scientist braucht einen langen Atem und viel Gespür für Zusammenhänge. Data Science ist leider eine Sysyphus-Arbeit." Die aber "lohnt sich ungemein", verspricht er.

Links zum Artikel

Themen: Big Data, Freiberufler und Gehalt

Top500-Firmenprofile: Bosch, Daimler und Lufthansa

Kommentare zum Artikel

Tom

Also mal ganz unverhohlen: Wer glaubt dass Informatiker im Studium "IT-Wissen" erwerben und sich dadurch von Mathematikern unterscheiden sollte erst mal seine Hausaufgaben machen bevor er irgendetwas kritisiert.

omega chigma

Danke für deinen Kommentar. Einige Punkte möchte ich aber gerne nochmal aufgreifen.

1.) Machine Learning ist nicht das A und O eines jeden Data Scientists:

Es entsteht der Eindruck als wären maschinelle Lernverfahren das was einen Data Scientist heute ausmacht. Es gleicht schon einen Hype. Dabei haben sich Machine Learning Verfahren bis heute nur in wenigen Bereichen wirklich bewährt. Generell steckt das Ganze noch in Kinderschuhen. Das was einen Data Scientist wirklich ausmacht ist ganz allgemein die Fähigkeit neue Erkennntisse aus großen Datenmengen zu gewinnen und darauf aufbauend Empfehlungen abgeben zu können. Wie dies in der Praxis geschieht ist eine andere Frage. Das wäre aber eher dem Gebiet KDD (Knowledge Discovery in Databases) zuzuordnen, wo gerne mit Data Mining Methoden wie Clusteranalyse, Entscheidungsbäume, Bayes, Assoziationsanalyse, Text Mining, topologische Datenanalyse etc. gearbeitet wird. Letzteres gehört eindeutig zu Statistik/Mathematik.

2.) Python vs. R : Das ist halt der ewige Kampf. Ich habe ja nicht geschrieben, dass Python schlecht ist oder so. Ich nutze es selber. Je nach Problemstellung ist das eine oder das andere als Tool besser geeignet, aber es ist am Ende immer nur ein Tool und kein Selbstzweck. Allerdings ist mir nicht entgangen, dass R in den letzten Jahren mächtig aufgeholt hat. Umfangreichere Softwareprojekte, stemmt man aber bevorzugt mit Python. Für die ersten Analysen dagegen verwende ich meist R. Damit habe ich bisher gute Erfahrungen gesammelt.

Aber ich gebe dir auch dahingehend Recht, dass Python einfacher zu lernen ist.

3.) Domänenwissen und die Zusammenstellung eines Data-Teams: Hier gebe ich dir wieder Recht. Fachidioten haben hier nichts verloren. Grundkenntnisse in BWL, Technik etc. sind hier immer von Bedeutung. Wie du schon sagtest, ist es empfehlenswert ein Team aus mehreren Experten zusammenzustellen.

Aus meiner Sicht sieht ein gutes Data-Team wie folgt aus:
Es setzt sich zusammen aus mindestens einem Informatiker, der sich gut mit der Infrastruktur für Daten und Data Warehouse auskennt. Er würde dann im Schwerpunkt Data Engineering betreiben, aber auch bei Machine Learnining und allg. bei KI-Fragestellungen eine wichtige Rolle spielen. Dann sollte mindestens ein Mathematiker oder Statistiker dabei sein für die Entwicklung geeigneter Modelle, Data Mining etc. Diese Person würde sich vorwiegend auf die eigentliche Analyse kozentrieren.
Zuletzt darf natürlich ein Fachexperte aus der jeweiligen Domäne nicht fehlen. Er berät die anderen bei fachspezifischen Fragestellungen. Das kann ein Betriebswirt, ein Chemiker, ein Marketing-Experte oder sonst was sein.

Wenn man ganz grob so vorgeht, wird man bei Big Data Problemen deutlich weiter kommen als es bei deutschen Unternehmen derzeit der Fall ist, die häufig gar nicht wissen was sie wollen.

Genosse der Bosse

Was du hier schreibst ist allerdings auch nur persönliche Meinung und ebenso kritisierbar. Das "bisschen IT-Wissen" kann man sich eben nicht mal eben kurz nebenbei aneignen. Das A und O eines jeden Data Scientists sind immernoch die maschinellen Lernverfahren, welche im Bereich der Informatik angesiedelt sind. Viel Verfahren davon basieren auch nicht auf statistischen Modellen sondern haben recht unterschiedliche Hintergründe. Mal davon abgesehen, dass in der Praxis ein Großteil der Arbeitszeit für die Datenaufbereitung drauf geht. Ohne die richtige Vorbereitung, bringen die besten Analyseverfahren nichts. Das wichtigste mathematische Grundwissen (v.a. relationale Algebra) wird in jedem Informatikstudium zur genüge gelernt und bei passender Spezialisierung, entsprechend vertieft.

Wenn es dann auch noch im Bereich Big Data geht, kommt man ohne enstsprechendes Wissen über verteilte Systeme und Netzwerke (Web Frameworks, Hadoop, NoSQL) nicht voran. Mal eben eine CSV Datein in R einlesen kann hingegen nun wirklich jeder.

Im Artikel stand auch nicht das Python die "beste" Skriptsprache ist sondern lediglich die Performanteste um am weistesten verbreitete in der Praxis ist. Python ist einfach deutlich schneller in Sachen Laufzeit und auch wesentlich einfacher zu erlernen. Auch die Einbettung auf Applikationsebene funktioniert im Schnitt deutlich besser mit Python. Django + Python > Java + R.

Mal davon abgesehen das man ohne Domänenwissen (Technik, Business, Biologie oder was auch immer) ohnehin nur schlecht zur Interpretation von enstsprechenden Daten befähigt ist. Data Science ist kein Beruf für Fachidioten und das die meisten Unternehmen sich hierfür unterschiedliche Experten zusammenstellen ist meiner Erfahrung nach leider weiter Wunschdenken, obwohl ich es mir sicher wünschen würde.

omega chigma

Ich muss sagen, dass der Artikel wirklich schlecht ist. Der Autor versteht offensichtlich überhaupt nichts von Data Science.

Der Artikel suggeriert, dass Informatiker von allen Fachrichtungen am besten geeignet sind. Das wird aber selten der Fall sein, weil IT nur ein kleiner Teil dessen sind was einen Data Scientist ausmacht. Informatiker sind auf jeden Fall die erste Wahl beim Data Engineering, aber bei Data Science sind Mathematiker, Physiker etc. mindestens gleichwertig mit Informatiker und bei geeigneten Studienschwerpunkten können Mathematiker und Physiker sogar deutlich besser geeignet sein. Ihre Stärken sind mathematische Modellierung, Komplexitätsreduktion, Probleme von einem anderen Blickwinkel zu betrachten, zu abstrahieren usw.
Genau das braucht ein Data Scientist. Das bisschen IT-Wissen kann man sich in kurzer Zeit schnell aneignen und ist heutzutage ohnehin in allen oben genannten Fächern enthalten.
Wenn man als Unternehmen ein ganzes Data-Team aufbauen will, dann würde ich definitiv empfehlen mehrere Fachgruppen einzubeziehen. Also einen Informatiker, einen Mathematiker und evtl. noch einen WiWI oder Ingeneur oder so. Das ergibt zusammen ein erstklassiges Team, mit dem man sehr viel erreichen kann.

Und noch ein Punkt: der Artikel suggeriert, dass Python die "bessere" Scriptsprache ist. Das ist natürlich kompletter Blödsinn. Je noch Problemstellung kann R besser geeignet sein. Man sollte mindestens ein von beiden beherrschen- egal welches. Natürlich ist es vorteilhaft, wenn man mehrere Sprachen kann, aber notwendig ist dies sicher nicht.

Deutschland scheint noch heute, über ein Jahr nachdem dieser Artilel veröffentlicht wurde, immer noch nicht zu wissen, was einen Data Scientist ausmacht und wie man ein gutes Data-Experten-Team zusammenstellt.

comments powered by Disqus
Zur Startseite