Im Zuge der fortschreitenden Digitalisierung wenden sich immer mehr Unternehmen ihren großen Datenbeständen zu, und versuchen aus diesen Daten geschäftsrelevantes Wissen zu extrahieren. Für solche Auswertungen sind Data Scientists nötig, mit ihrem spezifischen Know How und Techniken.
Fragt sich, wo die Stolpersteine im Bereich Data Science liegen, und was solche Projekte erfolgreich macht.
Der Autor des anliegenden Artikels „Top 10 Challenges to Practicing Data Science at Work“ hat eine Kaggle Umfrage mit 16000 professionellen Date Scientists ausgewertet, und solche Stolpersteine identifiziert.
In der Praxis sind Qualifizierungsdefizite, Datenmängel, und Probleme mit den Anforderungen die häufigsten und größten Herausforderungen.
Wie es dort heißt, sind die 10 am häufigsten genannten Problemfelder, die innerhalb des letzten Jahres angetreten sind, demnach“
„Dirty data (36% reported)
Lack of data science talent (30%)
Company politics (27%)
Lack of clear question (22%)
Data inaccessible (22%)
Results not used by decision makers (18%)
Explaining data science to others (16%)
Privacy issues (14%)
Lack of domain expertise (14%)
Organization small and cannot afford data science team (13%)“
Für Data Science ist mathematisches Wissen notwendig, und je nach Verfahren sollte das Wissen auch nicht nur oberflächlich sein. Entsprechende Mitarbeiter gibt es nicht wie Sand am Meer. Daher ist es nicht verwunderlich, daß Know How Probleme eine große Rolle spielen.
Viele Firmen machen aus der Not eine Tugend, und qualifizieren Mitarbeiter nach, die aus artverwandten Bereichen kommen (Ingenieure, Volkswirtschaftler, etc). Wenn Sie sich etwas näher im Markt umsehen, werden Sie feststellen, daß es bereits online so viele und gute Kurse gibt, daß man bereits neben dem Job viel machen kann. Eine andere Möglichkeit ist, die entsprechenden Mitarbeiter in konkreten Projekten on-the-job auszubilden. Oder, man macht Beides.
Data Science ist ohne Daten kaum vorstellbar.
Diese Daten stellen jedoch in vielen Projekten eine große Hürde dar. Einmal muss man über eine Infrastruktur verfügt, um Daten zu erfassen und zu speichern. Diese muss man oft erst aufbauen, und das kann dauern.
Dann sollte man den Aufwand nicht unterschätzen, der notwendig ist, um die Daten zu bereinigen und in ein auswertbares Format zu bringen.
Wenn Sie sich hier nach Lösungen umsehen, werden Sie feststellen, daß es sehr gute quelloffene Werkzeuge gibt, um Daten zu speichern und aufzubereiten (oft abgekürzt mit dem Begriff SMACK Stack), und, daß es auch hier sehr umfangreiches Video Material gibt.
Ich persönlich arbeite mit Apache Spark, und kann Ihnen die diversen Online Trainings empfehlen, die Sie über die Platform „EDX“ erhalten. Die online Dokumentation aus dem Netz ist ebenfalls sehr empfehlenswert.
Man sollte sich jedoch nichts vormachen: Der Aufbau einer Infrastruktur mit entsprechendem KnowHow ist eine langwierige Angelegenheit, genauso, wie das Einrichten von Daten-Pipelines zur Bereinigung der Daten. Daher bietet es sich manchmal an, fertige Lösungen zu benutzen – Databricks oder Microsoft Azure bieten z.B. sehr umfangreiche cloudbasierte Lösungen.
Wie bei anderen Software-Projekten auch, sollte man nicht unterschätzen, welche zentrale Rolle „gute“ Anforderungen, und später dann der Rollout der entwickelten Lösung spielen. Sie können sehr viel Data Science betreiben, ohne jedoch zu wissen, was Ihre Stakeholder genau benötigen, ist es oft nicht mehr, als Stochern im Nebel.
Die gute Nachricht hierbei ist, daß die gleichen Produktmanagement Techniken, die man benutzt, um Anforderungen an Software zu klären, oder fertige Software auszurollen, kann man benutzen, um Anforderungen an Data Science Projekte zu definieren.
Das Original dieses Artikels ist auf →Der Produktmanager erschienen (©Andreas Rudolph). Folgeartikel zum Thema gibt es über die (→Mailingliste), oder indem Sie →mir auf Twitter folgen.
In der Online Version des Artikels finden Sie hier die versprochenen weiterführenden Links: