5 Tipps fürs Recruiting

Was ein Data Scientist können sollte

Werner Kurzlechner lebt als freier Journalist in Berlin und stellt regelmäßig Rechtsurteile vor, die Einfluss auf die tägliche Arbeit von Finanzentscheidern nehmen. Als Wirtschaftshistoriker ist er auch für Fachmagazine und Tageszeitungen jenseits der IT-Welt tätig.
Data Scientists sind heiß begehrt: Experten erläutern, wie man die richtigen Data Scientist findet und welche Spezialisten in Big Data-Projekten wichtig sind.
Bei der Freiberuflervermittlung Gulp blieben die geforderten Stundensätze in jüngster Zeit ziemlich konstant. Zumindest im Durchschnitt aller IT-Jobs. Big Data-Spezialisten hingegen verlangen immer mehr Geld (blaue Linie).
Bei der Freiberuflervermittlung Gulp blieben die geforderten Stundensätze in jüngster Zeit ziemlich konstant. Zumindest im Durchschnitt aller IT-Jobs. Big Data-Spezialisten hingegen verlangen immer mehr Geld (blaue Linie).
Foto: Gulp

83 Euro. So viel verlangen IT-Freiberufler laut der Vermittlung Gulp aktuell für eine Arbeitsstunde, wenn sie sich auf Big Data spezialisiert haben. Die Zahl alleine verrät, dass Spezialisten in diesem Bereich gesucht sind wie nie - Data Scientists zum Beispiel.

Das Problem vieler Firmen: Sie wissen zwar, dass sie Datenkönner benötigen; aber nicht unbedingt ist ihnen klar, was genau die Könner können sollten und wie man sie findet.

Immerhin gibt es derzeit eine Reihe grundlegender Antworten auf diese drängenden Fragen, zum Beispiel vom Berater Jonathan Hassell in unserer amerikanischen Schwesterpublikation CIO.com oder vom BI-Experten Wolfgang Martin für Computerwoche.de.

Ideal: Einstein, Michelangelo und eine Prise Gates

Die Nöte der Firmen gründen offenbar darin, dass dem Jobprofil etwas Unwirkliches anhaftet. Man kreuze ein Schaf, ein Huhn und eine Kuh, und schon hat man immer Wolle, Eier und Milch. Klappt halt nicht. Vor einem Jahr wurde der Data Scientist auf CIO.de bereits als "Alleskönner" beschrieben.

Die analytischen Fertigkeiten eines Wissenschaftlers und die Kreativität eines Künstlers kombiniert die Idealbesetzung am besten noch mit IT-Know-how. Einstein, Michelangelo und Bill Gates in einem, das wär's. Aber gibt's diesen Superhelden? Und wenn, warum sollte er für 83 Euro auch nur den kleinen Finger rühren?

Anders betrachtet spricht selbstverständlich nichts dagegen, dass Informatiker analytische Begabung mitbringen. Und kaum etwas, dass viele von ihnen auch kreativ Probleme lösen können. Die benötigten Fertigkeiten in ihrem Zusammenspiel müssen gleichwohl ausgebildet werden.

Fraunhofer bietet Schulungen an

In Deutschland bietet beispielsweise das Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme (IAIS) in Sankt Augustin bei Bonn entsprechende Schulungen an. Und die potenziellen Anwender von Big Data müssen wissen, wohin sie mit der Datenanalyse eigentlich wollen.

Auch weil die CeBIT in diesem Jahr "Datability" zum Leitthema auserkor, ist das Problem in jüngster Zeit vielfach beleuchtet worden. "Gesucht am Arbeitsmarkt und gefordert sind Analytiker, die sich nicht nur mit sehr, sehr großen Datenbanken auskennen, sondern auch auf unstrukturierten Daten Mustererkennung anwenden können, Wahrscheinlichkeitsrechnung beherrschen und auch noch sehr sophistische Methoden der Datenanalyse drauf haben", erläuterte der Journalist Peter Welchering für den Deutschlandfunk.

10 Kunden aus 30 Terabyte ziehen

"Platt gesagt, will die Wirtschaft eine Mischung aus Softwareentwickler und Analytiker haben, dem sie 30 Terabyte geben und sagen: Hole uns da die zehn Kunden raus, mit denen wir im nächsten Jahr den meisten Umsatz machen können." Weil der klassisch ausgebildete Informatiker damit in der Regel überfordert ist, werde momentan über eine Weiterentwicklung des Fachs in Richtung Datenwissenschaft diskutiert, so Welchering.

Angebot hinkt hinter Nachfrage her

Wie groß der Bedarf an Datenspezialisten tatsächlich ist, illustriert die Entwicklung der Stundensätze bei Gulp. Im Gesamtdurchschnitt aller IT-Freiberufler gab es da seit April 2012 wenig Bewegung. Der durchschnittlich gefordert Stundensatz stieg von 74 beinahe unmerklich auf 76 Euro. Bei der Gruppe der Big Data-Experten schnellte der Betrag derweil von unterdurchschnittlichen 63 Euro über mittelprächtige 76 Euro vor einem Jahr auf 83 Euro empor.

Die Nachfrage wächst offenbar tatsächlich rasant, das Angebot kommt nicht mit. Auf rund 500 Data Scientists wird der hierzulande verfügbare Pool auf dem Portal Arcor.de geschätzt. "Man muss natürlich enormes technisches Verständnis mitbringen, aber auch Neugier und Offenheit für neue Technologien", berichtet dort Klaas Bollhoefer, Data Scientist beim Berliner Dienstleister The Unbelievable Machine, über seiner Erfahrungen. "Und man muss darüber erzählen können."

Beispiel für Arbeit eines Data Scientist

Bollhoefer gibt auf Arcor.de auch ein Beispiel dafür, warum Data Scientists kreativ sein sollten. "Wir haben zum Beispiel mal eine Big-Data-Analyse für einen Nahrungsmittelhersteller gemacht", so der Data Scientist. "Der wollte wissen, ob und wie er online im Bereich Kochen oder Rezepte erwähnt wird. Dafür muss man also eigentlich das ganze Internet absuchen - Rezeptplattformen, Blogs, Social MediaSocial Media und so weiter." Und ein funktionierendes Modell dafür entwickeln, was ohne IT-Wissen nicht geht. Alles zu Social Media auf CIO.de

Im gleichen Artikel bringt Michael Mock vom Fraunhofer IAIS das derzeitige Dilemma auf den Punkt: "Wir haben in einer Umfrage herausgefunden, dass viele Firmen Big Data nutzen möchten, aber nicht wissen wie." Die Überforderung setzt sich fort, sobald sie Data Scientists anheuern wollen. Für Jonathan Hassell, Chef des Beratungshauses 82 Ventures, handelt es sich um "einen der zweifelsohne heißesten Jobs auf dem Markt".

5 Recruiting-Tipps für Data Scientists

"Der perfekte Kandidat ist ein Zahlengenie und ein Gelehrter in Firmenpolitik, der mit statistischen Computersprachen umgeht wie ein Konzertpianist", so Hassell auf CIO.com. "Aber es ist schwierig, dieses Ideal in eine praktische Jobbeschreibung und die dazu passenden Suchkriterien zu übersetzen." Weil es sich um eine neue Rolle mit wenigen Erfahrungswerten handle, empfiehlt der Experte für die Rekrutierung eine enge Zusammenarbeit zwischen IT und Personalabteilung. Er nennt außerdem fünf Punkte, auf die es zu achten gilt.

1. Statistisches Verständnis: Ein Data Scientist muss aus einer Fülle von Daten die nützlichen Informationen filtern und dabei mit Zahlenbergen so versiert sein, dass Trends frühzeitig erkannt werden. Ein Hochschulabschluss in Mathematik wäre wünschenswert, meint Hassell. Es sei aber davon auszugehen, dass die meisten Kandidaten praktischere Bildungswege eingeschlagen hätten - Informatik oder Ingenieurswissenschaften in aller Regel.

"Lassen sie sich nicht abschrecken, wenn Bewerbern fortgeschrittene Mathematikkenntnisse fehlen", rät der Berater. "Ein Augenmerk auf Statistik in der akademischen KarriereKarriere sollte für die Rolle ausreichen - egal ob auf Bachelor-Niveau oder höher." Alles zu Karriere auf CIO.de

2. Neugierde ist essenziell: Hassell lobpreist die Wissbegierde potenzieller Data Scientists; er meint damit das, was gemeinhin als Kreativität bezeichnet wird. Um der Aufgabe gerecht werden zu können, müssen Datenbankabfragen nämlich nicht nur umgesetzt werden. Der Datenspezialist sollte weiterdenken, selbst die richtigen Fragen konzipieren, auf die sonst im Unternehmen niemand kommt und die Gewinnchancen eröffnen.

Hassell empfiehlt, diese Fähigkeit anhand hypothetischer Szenarien im Vorstellungsgespräch zu testen. "Man sollte den Bewerbern dabei sagen, dass Denken abseits ausgetrampelter Pfade erwünscht ist und Antworten nicht auf die Problemstellung verengt werden sollten", so der Berater.

3. Fachwissen über Datenbanken: Ein guter Data Scientist kennt sich mit dem Design und der Implementierung von Datenbanken aus - auch wenn das nicht zur oberflächlichen Betrachtung von Big Data passt. "Auch wenn unter diesem Begriff insbesondere unstrukturierte Daten subsummiert werden, hilft ein grundlegendes Verständnis sowohl relationaler als auch säulenartiger Datenbanken weiter", so Hassell.

Big Data möge neu und sexy sein, aber viele nützliche Informationen und Trends könnten aus traditionellen Datenbanken destilliert werden. Kenntnisse in diesem Bereich seien auch sinnvoll, um neue, anspruchsvollere Systeme aufsetzen zu können.

Hinzu komme, dass viele Entwickler von Big Data-Software bewusst SQL-ähnliche Sprachen verwenden. Klassische Administratoren sollen nämlich nicht verschreckt werden, wenn sie sich nicht auf MapReduce einlassen wollen. "Traditionelles SQL-Wissen wird weiter Dividenden abwerfen", meint Hassell.

4. Basisfertigkeiten in Skriptsprachen: Die besten Bewerber beherrschen nach Einschätzung von 82 Ventures auf alle Fälle die im Big Data-Umfeld angesagte Skriptsprache Python. "Python ist eine Open Source-Sprache, die als leicht verständlich und praktisch in der Anwendung gilt", erläutert Hassell. "Sie sollte keine allzu hohe Hürde darstellen."

BI-Experte Wolfgang Martin: "Data Stewards haben auch in Big-Data-Initiativen ihre Rolle, nämlich die der Data Hygienists, die sich aber jeweils an den Projektzielen und nicht an der Unternehmensstrategie ausrichtet."
BI-Experte Wolfgang Martin: "Data Stewards haben auch in Big-Data-Initiativen ihre Rolle, nämlich die der Data Hygienists, die sich aber jeweils an den Projektzielen und nicht an der Unternehmensstrategie ausrichtet."
Foto: Wolfgang Martin

Testen könne man außerdem grundsätzlich, wie Bewerber mit Pseudo-Codes umgehen oder ob sie Algorithmen und Abfragen in normaler Sprache erklären können. Können sie das, sollte die Aneignung von Sprachkenntnissen kein Problem sein.

5. Kein Lohndumping: "Man sollte nicht versuchen, unter marktüblichem Tarif zu bezahlen", schreibt Hassell. "Sogar Startups entlohnen Data Scientists erklecklich und ermöglichen ihnen die Arbeit an spannenden Produkten."

Mit Billiglöhnen angle man keine Top-Talente, so der Berater. Die aktuellen Gulp-Stundensätze zeigen, dass dieses Diktum aus den USA längst auch hierzulande gilt.

4 Dinge, die ein Data Scientist können muss

Für unsere Schwesterpublikation Computerwoche nennt BI-Experte Wolfgang Martin vier Dinge, die Data Scientist mitbringen müssen.

  • Erstens technische Expertise: "Tiefe Kenntnisse in einer Natur- oder Ingenieurs-Wissenschaft sind notwendig", stellt Martin klar. "Insofern sollte man zukünftige Data Scientists in dieser Gruppe suchen und dann auch die weiteren geforderten Eigenschaften testen."

  • Zweitens sei Problembewusstsein nötig - also die Fähigkeit, ein Problem in testbare Hypothesen aufzubrechen.

  • Drittens Kommunikation - sprich die Fähigkeit, komplexe Dinge per Anekdoten durch einfach verständliche und gut kommunizierbare Sachverhalte darzustellen.

  • Viertens Kreativität - also die Fähigkeit, Probleme mit anderen Augen zu sehen und anzugehen.

Martin macht in seinem Beitrag unter Zuhilfenahme einer McKinsey-Studie aber auch deutlich, dass Data Scientist alleine für das Schultern von Big Data-Projekten nicht genügen. Er grenzt die Rolle zunächst ab von den Data Stewards, die die Verantwortung für die Unternehmensdaten und für Daten aus den Fachabteilungen tragen. Bei der Big Data-Analyse seien neue Skills und Rollen gefragt, "die sich organisatorisch gesehen am besten in einem erweiterten BI-Kompetenzzentrum ansiedeln lassen", so der Fachmann.

5 neue Rollen für Big-Data-Projekte

Er nennt konkret fünf neue Rollen:

  • Data Hygienists stellen sicher, dass die Daten bereinigt und richtig sind und auch über den Lebenszyklus der Daten so bleiben.

  • Data Explorers durchsuchen das Big-Data-Universum, um die Daten aufzufinden, die man im Projekt braucht.

  • Business Solution Architects haben die Aufgabe, die identifizierten Daten zusammenzustellen und für die Analyse vorzubereiten.

  • Data Scientists übernehmen das Organisieren der Daten und das Bauen von analytischen Modellen im Rahmen des Projektes.

  • Campaign Experts schließlich haben die Aufgaben des Interpretierens der Ergebnisse und dem Umsetzen in Aktionen.

Rolle der Data Stewards

"Data Stewards haben auch in Big-Data-Initiativen ihre Rolle, nämlich die der Data Hygienists, die sich aber jeweils an den Projektzielen und nicht an der Unternehmensstrategie ausrichtet", schreibt Martin in seinem Fazit. "Sie spielen in der Big-Data-Analytik die Rolle eines SWAT-Teams (Special Weapons and Tactics, Anm. der Red.), also eines taktisch agierenden Spezialteams, und nicht die strategische Rolle wie im Unternehmen." Insofern seien sie wieder ein Dienstleister, der bei Big-Data-Initiativen von den Data Scientists gerufen wird, aber nicht selbständig agiert.

Links zum Artikel

Themen: Karriere und Social Media

Kommentare zum Artikel

omega chigma

Danke für deinen Kommentar. Einige Punkte möchte ich aber gerne nochmal aufgreifen.

1.) Machine Learning ist nicht das A und O eines jeden Data Scientists:

Es entsteht der Eindruck als wären maschinelle Lernverfahren das was einen Data Scientist heute ausmacht. Es gleicht schon einen Hype. Dabei haben sich Machine Learning Verfahren bis heute nur in wenigen Bereichen wirklich bewährt. Generell steckt das Ganze noch in Kinderschuhen. Das was einen Data Scientist wirklich ausmacht ist ganz allgemein die Fähigkeit neue Erkennntisse aus großen Datenmengen zu gewinnen und darauf aufbauend Empfehlungen abgeben zu können. Wie dies in der Praxis geschieht ist eine andere Frage. Das wäre aber eher dem Gebiet KDD (Knowledge Discovery in Databases) zuzuordnen, wo gerne mit Data Mining Methoden wie Clusteranalyse, Entscheidungsbäume, Bayes, Assoziationsanalyse, Text Mining, topologische Datenanalyse etc. gearbeitet wird. Letzteres gehört eindeutig zu Statistik/Mathematik.

2.) Python vs. R : Das ist halt der ewige Kampf. Ich habe ja nicht geschrieben, dass Python schlecht ist oder so. Ich nutze es selber. Je nach Problemstellung ist das eine oder das andere als Tool besser geeignet, aber es ist am Ende immer nur ein Tool und kein Selbstzweck. Allerdings ist mir nicht entgangen, dass R in den letzten Jahren mächtig aufgeholt hat. Umfangreichere Softwareprojekte, stemmt man aber bevorzugt mit Python. Für die ersten Analysen dagegen verwende ich meist R. Damit habe ich bisher gute Erfahrungen gesammelt.

Aber ich gebe dir auch dahingehend Recht, dass Python einfacher zu lernen ist.

3.) Domänenwissen und die Zusammenstellung eines Data-Teams: Hier gebe ich dir wieder Recht. Fachidioten haben hier nichts verloren. Grundkenntnisse in BWL, Technik etc. sind hier immer von Bedeutung. Wie du schon sagtest, ist es empfehlenswert ein Team aus mehreren Experten zusammenzustellen.

Aus meiner Sicht sieht ein gutes Data-Team wie folgt aus:
Es setzt sich zusammen aus mindestens einem Informatiker, der sich gut mit der Infrastruktur für Daten und Data Warehouse auskennt. Er würde dann im Schwerpunkt Data Engineering betreiben, aber auch bei Machine Learnining und allg. bei KI-Fragestellungen eine wichtige Rolle spielen. Dann sollte mindestens ein Mathematiker oder Statistiker dabei sein für die Entwicklung geeigneter Modelle, Data Mining etc. Diese Person würde sich vorwiegend auf die eigentliche Analyse kozentrieren.
Zuletzt darf natürlich ein Fachexperte aus der jeweiligen Domäne nicht fehlen. Er berät die anderen bei fachspezifischen Fragestellungen. Das kann ein Betriebswirt, ein Chemiker, ein Marketing-Experte oder sonst was sein.

Wenn man ganz grob so vorgeht, wird man bei Big Data Problemen deutlich weiter kommen als es bei deutschen Unternehmen derzeit der Fall ist, die häufig gar nicht wissen was sie wollen.

Genosse der Bosse

Was du hier schreibst ist allerdings auch nur persönliche Meinung und ebenso kritisierbar. Das "bisschen IT-Wissen" kann man sich eben nicht mal eben kurz nebenbei aneignen. Das A und O eines jeden Data Scientists sind immernoch die maschinellen Lernverfahren, welche im Bereich der Informatik angesiedelt sind. Viel Verfahren davon basieren auch nicht auf statistischen Modellen sondern haben recht unterschiedliche Hintergründe. Mal davon abgesehen, dass in der Praxis ein Großteil der Arbeitszeit für die Datenaufbereitung drauf geht. Ohne die richtige Vorbereitung, bringen die besten Analyseverfahren nichts. Das wichtigste mathematische Grundwissen (v.a. relationale Algebra) wird in jedem Informatikstudium zur genüge gelernt und bei passender Spezialisierung, entsprechend vertieft.

Wenn es dann auch noch im Bereich Big Data geht, kommt man ohne enstsprechendes Wissen über verteilte Systeme und Netzwerke (Web Frameworks, Hadoop, NoSQL) nicht voran. Mal eben eine CSV Datein in R einlesen kann hingegen nun wirklich jeder.

Im Artikel stand auch nicht das Python die "beste" Skriptsprache ist sondern lediglich die Performanteste um am weistesten verbreitete in der Praxis ist. Python ist einfach deutlich schneller in Sachen Laufzeit und auch wesentlich einfacher zu erlernen. Auch die Einbettung auf Applikationsebene funktioniert im Schnitt deutlich besser mit Python. Django + Python > Java + R.

Mal davon abgesehen das man ohne Domänenwissen (Technik, Business, Biologie oder was auch immer) ohnehin nur schlecht zur Interpretation von enstsprechenden Daten befähigt ist. Data Science ist kein Beruf für Fachidioten und das die meisten Unternehmen sich hierfür unterschiedliche Experten zusammenstellen ist meiner Erfahrung nach leider weiter Wunschdenken, obwohl ich es mir sicher wünschen würde.

omega chigma

Ich muss sagen, dass der Artikel wirklich schlecht ist. Der Autor versteht offensichtlich überhaupt nichts von Data Science.

Der Artikel suggeriert, dass Informatiker von allen Fachrichtungen am besten geeignet sind. Das wird aber selten der Fall sein, weil IT nur ein kleiner Teil dessen sind was einen Data Scientist ausmacht. Informatiker sind auf jeden Fall die erste Wahl beim Data Engineering, aber bei Data Science sind Mathematiker, Physiker etc. mindestens gleichwertig mit Informatiker und bei geeigneten Studienschwerpunkten können Mathematiker und Physiker sogar deutlich besser geeignet sein. Ihre Stärken sind mathematische Modellierung, Komplexitätsreduktion, Probleme von einem anderen Blickwinkel zu betrachten, zu abstrahieren usw.
Genau das braucht ein Data Scientist. Das bisschen IT-Wissen kann man sich in kurzer Zeit schnell aneignen und ist heutzutage ohnehin in allen oben genannten Fächern enthalten.
Wenn man als Unternehmen ein ganzes Data-Team aufbauen will, dann würde ich definitiv empfehlen mehrere Fachgruppen einzubeziehen. Also einen Informatiker, einen Mathematiker und evtl. noch einen WiWI oder Ingeneur oder so. Das ergibt zusammen ein erstklassiges Team, mit dem man sehr viel erreichen kann.

Und noch ein Punkt: der Artikel suggeriert, dass Python die "bessere" Scriptsprache ist. Das ist natürlich kompletter Blödsinn. Je noch Problemstellung kann R besser geeignet sein. Man sollte mindestens ein von beiden beherrschen- egal welches. Natürlich ist es vorteilhaft, wenn man mehrere Sprachen kann, aber notwendig ist dies sicher nicht.

Deutschland scheint noch heute, über ein Jahr nachdem dieser Artilel veröffentlicht wurde, immer noch nicht zu wissen, was einen Data Scientist ausmacht und wie man ein gutes Data-Experten-Team zusammenstellt.

comments powered by Disqus