Big Data Rollen und Teams

Universalgenies sind selten, auch im Bereich der Analytics. Die Entwicklung von Big Data Anwendungen, oder auch Machine Learning Projekte erfordern Mitarbeiterteams, die unterschiedliche Rollen ausfüllen.

Big Data Projekte

Big Data Projekte bestehen aus unterschiedlichen Teilbereichen. Beispiele sind:

  • Beschaffung bereinigter Daten
  • Datenauswertung (Data Science)
  • Entwicklung von Modellen
  • Darstellung/ Visualisierung von Daten und Ergebnissen

Jeder der notwendigen Teilbereiche erfordert unterschiedliche Qualifikationen. So liegt der Schwerpunkt in der Data Science eher im mathematischen Bereich, während es beim Entwickeln eher um die Fähigkeiten aus dem klassischen Softwareengineering geht.

Normalerweise erfordern solche Projekte daher Mitarbeiter mit unterschiedlichen Qualifikationen und Kenntnissen. Die folgenden Artikel geben einen guten Überblick.

Five Roles You Need on Your Big Data Team

Der Artikel „Five Roles You Need on Your Big Data Team“ stammt aus dem Jahre 2013, stellt aber nichts desto trotz diese unterschiedlichen Qualifikationen gut dar – zumindest was die Teile „Data Hygienists“, „Data Explorers“, „Business Solution Analysts“ und „Data Scientists“ angeht.

Die letzte Rolle (Campaign Experts) ist eher in Marketing Projekten anzutreffen. Jedoch führt man Big Data Projekte auch in anderen Unternehmensbereichen durch, in denen es um andere Themen geht. D.h diese Rolle unterscheidet sich normalerweise im Projekt.

Learn How to Create and Manage Big Data Teams

Das eBook „Learn How to Create and Manage Big Data Teams“ konzentriert sich eher auf die beiden Gruppen „Data Engineering“ und „Data Science“, und verdeutlicht die Schnittstellen dieser beiden Professionen im Detail.

Hier ist ebenfalls das „Data Engineering“ für die Entwicklung zuständig, während sich das „Data Science“ eher auf mathematische Aspekte konzentriert. Eine weitere Rolle, die am Ende ins Spiel kommt, ist das Data Warehousing Team, das sich um die Datenhaltung und -bereitstellung kümmert.

The seven people you need on your Big Data team

Die Beschreibung „The seven people you need on your Big Data team“ ist sehr unterhaltsam geschrieben. Der Autor unterscheidet – wie der Titel bereits sagt – 7 unterschiedliche Rollen. Diskutiert werden:

  • Der Handyman: Eine Art Selbstmacher.
  • Der Open Source Guru: Kennt sich mit Open Source aus.
  • The Data Modeller: Kennt das Business und weiß, welche Daten aus fachlicher Sicht notwendig sind, um bestimmte Zusammenhänge abzubilden.
  • The Deep Diver: Data Scientist, der mathematisch-statistisch in der Lage ist, die Daten im Detail zu analysieren.
  • The Story Teller: Derjenige der Daten präsentieren und visualisieren kann.
  • Snoop und Privacy Wonk treten oft zusammen auf: Der eine sucht stets nach neuen Daten und Auswertemöglichkeiten (auch unter Vernachlässigung von Data Privacy). Der andere konzentriert sich auf ebendiesen Aspekt.

Ein Kommentar erwähnt eine Rolle, die auch mir in der Beschreibung fehlt: der Business Consultant. Letztendlich benötigt man Personen, die weniger aus der Richtung der Daten kommen, als vielmehr Leute, die sich mit den Business Prozessen vor Ort auskennen.

Einmal ist es möglich, solche Leute in das Projekt mit aufzunehmen. Eine Alternative wäre ein Arbeitsmodell, wie das Design Thinking zu verwenden, mit dessen Hilfe die notwendige Außensicht situationsbezogen bereitgestellt werden kann.

Erfahrungen

Ein wichtiger Aspekt ist die Gestaltung der Schnittstelle zwischen den Entwicklern und den Data Scientists, die weiter oben schon einmal angeklungen ist. Meiner Erfahrung nach organisiert sich diese Schnittstelle in einem Projekt von selbst, und sie hängt auch von den Tools ab, die zum Einsatz kommen. D.h. es ist nicht notwendig a priori zu viel zu organisieren.

Was ich damit meine: Typischerweise arbeitet das Team an einem Modell, das sich im Big Data Umfeld einsetzen läßt. D.h das Modell muss arbeiten, wie fachlich notwendig („Data Science“), und muss dies zuverlässig und in aller Breite tun („Data Engineering“).

Oft nutzten beide Teams ähnliche Werkzeuge. Während die Data Scientists aber eher daran arbeiten, ein Konzept zu entwickeln, konzentrieren sich die Data Engineers auf die Verfeinerung genau dieses Konzepts.

In Tools gesprochen, würde der Data Scientist vielleicht die Daten mit R auswerten/ darstellen, und sein Modell in einem Jupiter Workbook beschreiben, während der Data Engineer dieses Workbook z.B. in SPARK ML massendatentauglich erweitern würde. Etwaige Data Warehousing Experten würden sich hierbei vielleicht um die Datenstreams kümmern, die notwendig sind, um das produktive Modell mit Daten zu versorgen.

In der Praxis überschneiden sich die Bereiche, was es unmöglich macht, die Qualifikationen vollständig zu trennen. Viel entscheidender ist es daher, daß man alle Qualifikationen in einem Team hat.

Weiterführende Informationen

Das Original dieses Artikels ist auf Der Produktmanager erschienen (©Andreas Rudolph). Folgeartikel zum Thema gibt es über die (→Mailingliste), oder indem Sie →mir auf Twitter folgen.

In der Online Version des Artikels finden Sie hier die versprochenen weiterführenden Links:

Comments are closed.