Erfolgreiche Data Lake Projekte

Datalakes sind wichtige Vorraussetzungen für Projekte im Bereich des maschinellen Lernens oder den data sciences. Daher werden solche Lösungen vermehrt in den Betrieben eingesetzt.

Es gibt hierbei nicht „die“ Architektur, aber sehr wohl existieren Vorgehensweisen, die sich bewährt haben. Es fragt sich, wie ein Datalakeprojekt strukturiert sein sollte, um erfolgreich zu sein.

Datalakes

Ursprünglich hat man Data Warehouses verwendet, um (normalerweise strukturierte) Daten zu speichern und analytisch auszuwerten.

Inzwischen wachsen die Datenmengen und die Anforderungen der Auswerteszenarien derartig an, daß man nicht mehr mit einfachen Systemen auskommt, sondern große Speicher benötigt, die solche Daten sowohl in Rohform als auch in verarbeiteter Form aufnehmen und sie für Analysen zur Verfügung stellen (siehe anliegenden Artikel „Definition: Was ist ein Data Lake?„).

Die Beschreibung in „Demystifying Data Lake Architecture“ geht auf die unterschiedlichen Konzepte und Architekturen ein.

Typischerweise speichert man sowohl strukturierte, als auch unstrukturierte Daten im Rohformat und füttert gleichzeitig Auswertepipelines mit diesen Daten, die die Daten geeignet transformieren. Der Datalake stellt dann dem Nutzer aufbereitete Daten oder Visualisierungen zur Verfügung und unterstützt Auswertungen der Maschinenintelligenz. Hierbei gibt es unterschiedliche Vorgehensweisen, die der zitierte Artikel aufzeigt.

Phasen

Die Übersicht in „A smarter way to jump into data lakes“ macht klar, daß vollausgebaute Datalakes üblicherweise in Phasen entstehen.

Oft fangen Firmen mit einer „Landing and raw-data zone“ an, die erst einmal dazu dient, Daten einzusammeln, und aufbereitet zu speichern. In der nächsten Phase kommt dann ein „Data-science environment“ hinzu mit dessen Hilfe man beginnen kann, die gespeicherten Daten aktiv auszuwerten und zu nutzen.

In der nächsten Phase „Offload for data warehouses“ konzentriert man sich darauf den Datalake mit businesskritischen Data Warehouses zu vernetzen. Hierbei speichert der Datalake dann die „kalten“ Daten, während das Datawarehouse den Nutzern AdHoc Auswertungen zu aktuellen Daten liefert.

In der höchsten Ausbaustufe wird der Datalake zu einer „Critical component of data operations“. In dieser höchsten Stufe ist der Datalake voll in den Betrieb integriert, und man kann davon ausgehen, daß alle Unternehmensdaten über den Datalake und seine Prinzipien verteilt werden.

Erfolgreiche Implementierung

Der Artikel „Characteristics of a Successful Data Lake Implementation“ geht auf das Erfolgsgeheimnis erfolgreicher Projekte ein. U.a sind dies:

  • Üblicherweise gibt es nicht die Architektur. Daher werden üblicherweise unterschiedliche Tools und Produkte eingesetzt, um Daten zu streamen und (strukturiert und unstrukturiert) zu speichern. Dabei gibt es Produkte, die ihre Nase vorne haben, wenn es um das Speichern und Auswerten von Logs geht. Wieder andere nimmt man für die asynchrone Kommunikation, etc. Letztendlich hängen Tools und Architektur davon ab, was man vorhat, und welche Daten anfallen.
  • Typischerweise werden Datalakes an die Industrie angepasst. Die eine Branche benötigt Echtzeitdaten, die andere vielleicht grafische Daten, und die nächste Finanzdaten. Hierbei sind Anforderungen und damit die für den Datalake verwendete Software unterschiedlich. Das betrifft sowohl das Speichern, als auch das Auswerten.
  • Die automatisierte Aufbereitung der Rohdaten und das automatisierte Management der Metadaten nimmt eine zentrale Rolle ein, wenn der Datalake nicht zum Data Swamp werden soll. In erfolgreichen Datalakes gelingt es, die eingehenden Daten automatisiert so aufzubereiten, daß der Inhalt klar ist, seine Grenzen, und die Datenströme von hoher Qualität sind und wiedergefunden werden können

Weitere Erfolgsgeheimnisse (siehe Artikel) sind der Ingestion Workflow (d.h der Prozess mit dessen Hilfe die Daten eingehen, und die Integration mit anderen Daten und Tools.

Weiterführende Informationen

Das Original dieses Artikels ist auf Der Produktmanager erschienen (©Andreas Rudolph). Folgeartikel zum Thema gibt es über die (→Mailingliste), oder indem Sie →mir auf Twitter folgen.

In der Online Version des Artikels finden Sie hier die versprochenen weiterführenden Links:

Comments are closed.