Ich habe in den letzten Wochen in „open.sap.com“ an dem Kurs „Getting Started with Data Science“ teilgenommen. Der Kurs ist zwar bald beendet. Sie können sich bei Interesse aber jederzeit die Aufzeichnungen und die Materialien ansehen.
Da ich einiges an Vorwissen zu den dort geschulten mathematisch-statistischen Inhalten mitbringe war es für mich eher ein Auffrischungskurs.
Data-Science gehört derzeit zu den besonders zukunftsträchtigen Berufsfeldern. Das liegt u.a. daran, daß die Welt zwar immer mehr Daten sammelt, aber eigentlich über zuwenig Menschen verfügt, die daraus auch Informationen machen können, indem sie diese Daten mittels statistischer Methoden passend auswerten und präsentieren können.
Der passende Kurs war mit folgenden Inhalten angekündigt
“If you’re interested in learning about data science, this course will introduce you to the fundamentals of data preparation, predictive modeling, data science, and the deployment and maintenance of models in a business environment following a tried and tested project methodology.”
Die Schulung bringt Inhalte zu folgenden Themenbereichen, und hangelt sich dabei an der CRISP-DM Methodik („Cross Industry Standard Process for Data Mining“) entlang:
Gezeigt wird eine sehr große Bandbreite einzelner Techniken und Methoden. Beispielsweise vermittelt einem der Kurs die Vorgehensweisen um Modelle der „vorhersagenden Datenauswertung“ („Predictive Analytics“) zu entwerfen und anzuwenden. Hierbei kommt die Software SAP Lumira mit einer speziellen Erweiterung auf Basis der Statistiksoftware „R“ zum Einsatz, welche diese Methoden unterstützt.
Andere Lehrgebiete umfassen Algorithmen auf Basis neuronaler Netze, wie man sie beispielsweise bei der Klassifizierung von Daten einsetzt („künstliche Intelligenz“). Oder, es werden Methoden für die statistische Zeitreihenanalyse gezeigt, um nur einige Inhalte zu nennen.
Ich habe, wie gesagt eher zur Auffrischung teilgenommen. Trotzdem habe ich einige neue Methoden und Verfahren erlernt, die ich vorher noch nicht kannte.
Einige Inhalte konnte ich auch schon beruflich nutzen. Beispielsweise habe ich außerhalb des Kurses bereits ausgiebig mit der Methode des „Ensemble Learnings“ experimentiert. Dabei handelt es sich um eine intelligente Methode, mit der man unterschiedliche Auswertungsverfahren innerhalb einer Aufgabe nutzt.
Solche Verfahren sind sinnvoll, da sich beispielsweise die unterschiedlichen neuronale Netze jeweils nur für spezielle Aufgabenstellungen eignen. Das führt dazu, daß Rechenmodell in der Praxis nicht nur mit einer Art von neuronalem Netz auskommt, sondern unterschiedliche Ansätze benötigt, die hinterher in einem Modell zusammengefaßt werden.
Ich kann den Kurs uneingeschränkt empfehlen, wenn Sie wie ich, eine Auffrischung benötigen, oder aber, wenn Sie sich vollkommen neu einarbeiten wollen, und einen tieferen ersten Überblick über die Materie suchen.
Das Original dieses Artikels ist auf →Der Produktmanager erschienen (©Andreas Rudolph). Folgeartikel zum Thema gibt es über die (→Mailingliste), oder indem Sie →mir auf Twitter folgen.
In der Online Version des Artikels finden Sie hier die versprochenen weiterführenden Links: