Datalakes sind wichtige Vorraussetzungen für Projekte im Bereich des maschinellen Lernens oder den data sciences. Daher werden solche Lösungen vermehrt in den Betrieben eingesetzt.
Es gibt hierbei nicht „die“ Architektur, aber sehr wohl existieren Vorgehensweisen, die sich bewährt haben. Es fragt sich, wie ein Datalakeprojekt strukturiert sein sollte, um erfolgreich zu sein.
Ursprünglich hat man Data Warehouses verwendet, um (normalerweise strukturierte) Daten zu speichern und analytisch auszuwerten.
Inzwischen wachsen die Datenmengen und die Anforderungen der Auswerteszenarien derartig an, daß man nicht mehr mit einfachen Systemen auskommt, sondern große Speicher benötigt, die solche Daten sowohl in Rohform als auch in verarbeiteter Form aufnehmen und sie für Analysen zur Verfügung stellen (siehe anliegenden Artikel „Definition: Was ist ein Data Lake?„).
Die Beschreibung in „Demystifying Data Lake Architecture“ geht auf die unterschiedlichen Konzepte und Architekturen ein.
Typischerweise speichert man sowohl strukturierte, als auch unstrukturierte Daten im Rohformat und füttert gleichzeitig Auswertepipelines mit diesen Daten, die die Daten geeignet transformieren. Der Datalake stellt dann dem Nutzer aufbereitete Daten oder Visualisierungen zur Verfügung und unterstützt Auswertungen der Maschinenintelligenz. Hierbei gibt es unterschiedliche Vorgehensweisen, die der zitierte Artikel aufzeigt.
Die Übersicht in „A smarter way to jump into data lakes“ macht klar, daß vollausgebaute Datalakes üblicherweise in Phasen entstehen.
Oft fangen Firmen mit einer „Landing and raw-data zone“ an, die erst einmal dazu dient, Daten einzusammeln, und aufbereitet zu speichern. In der nächsten Phase kommt dann ein „Data-science environment“ hinzu mit dessen Hilfe man beginnen kann, die gespeicherten Daten aktiv auszuwerten und zu nutzen.
In der nächsten Phase „Offload for data warehouses“ konzentriert man sich darauf den Datalake mit businesskritischen Data Warehouses zu vernetzen. Hierbei speichert der Datalake dann die „kalten“ Daten, während das Datawarehouse den Nutzern AdHoc Auswertungen zu aktuellen Daten liefert.
In der höchsten Ausbaustufe wird der Datalake zu einer „Critical component of data operations“. In dieser höchsten Stufe ist der Datalake voll in den Betrieb integriert, und man kann davon ausgehen, daß alle Unternehmensdaten über den Datalake und seine Prinzipien verteilt werden.
Der Artikel „Characteristics of a Successful Data Lake Implementation“ geht auf das Erfolgsgeheimnis erfolgreicher Projekte ein. U.a sind dies:
Weitere Erfolgsgeheimnisse (siehe Artikel) sind der Ingestion Workflow (d.h der Prozess mit dessen Hilfe die Daten eingehen, und die Integration mit anderen Daten und Tools.
Das Original dieses Artikels ist auf →Der Produktmanager erschienen (©Andreas Rudolph). Folgeartikel zum Thema gibt es über die (→Mailingliste), oder indem Sie →mir auf Twitter folgen.
In der Online Version des Artikels finden Sie hier die versprochenen weiterführenden Links: