Heutzutage können Big Data Projekte richtig groß werden. Rund um Flugzeugtriebwerke und deren Wartung entstehen besonders große Datenmengen und Projekte. Um solche Datenmengen zu speichern und auszuwerten, benötigt man Datalakes und leistungsfähige Werkzeuge des maschinellen Lernens.
Wie Sie anliegenden Artikeln entnehmen können, sind Flugzeugtriebwerke teure Investitionsgüter, und ihre Wartung erzeugt hohe Folgekosten. So nennt der Artikel „Triebwerksinstandhaltung passgenau“ aus der Zeitschrift Aeroreport der MTU Aero Engines Wartungsaufwände im Milliarden-Euro Bereich. Daher wundert es nicht, wenn Hersteller von Flugzeugtriebwerken über Optimierungsmöglichkeiten nachdenken.
Wie Sie in „Intelligente Triebwerke: Das große Krabbeln“ lesen können, experimentiert die Triebwerkssparte der Firma Rolls Royce mit Maschinenintelligenz, Big Data Projekten, Nano-Robotern und virtueller Realität.
Man versucht mit diesen Ansätzen, den Wartungszeitraum besser vorherzusagen (was viel Geld sparen kann), und man will erreichen, daß man irgendwann Triebwerke inspizieren kann, ohne sie vorher aufwendig demontieren zu müssen.
Die Grundlage solcher Verfahren sind u.a. Daten, die laufend an Triebwerk und Flugzeug erhoben werden. Der Artikel macht folgende Angaben zur Datenmenge, die dabei laufend an den unterschiedlichen Sensoren anfällt:
„Pearl 15, eine neue Triebwerksgeneration, sendet kleine Pakete der wichtigsten Daten schon aus der Luft. „Eine Maschine, die mit uns spricht“, sagt Marketingchef Richard Goodhead. Etwa 1000 Parameter misst Pearl und trägt zu den jährlichen 30 Terabyte der Rolls-Royce-Flotte bei.“
Der bereits erwähnte Artikel „Triebwerksinstandhaltung passgenau“ macht folgende Angaben zum Mengengerüst:
„Big Data in der Triebwerksinstandsetzung
Ein Terabyte Daten werden von einem Flugzeugtriebwerk durchschnittlich während eines einzelnen Flugs produziert. Ein Getriebefan-Triebwerk liefert während eines einzelnen Flugs Daten über 5.000 Parameter.Die gesamte Getriebefan-Flotte wird einmal jährlich zwei Petabytes Daten liefern – also 1.000 Terabytes oder 10 hoch 15 Bytes. Das ist allerdings immer noch weniger als die Speicherkapazität eines menschlichen Gehirns, die nach Berechnungen von Wissenschaftlern bei 2,5 Petabytes liegen dürfte.“
Man kann also festhalten, daß die Modelle der Maschinenintelligenz, die man sich z.B. im Triebwerksbereich vornimmt, mit Datenströmen im Umfang von Terabytes oder sogar Petabytes umgehen muss.
Herkömmlicherweise würde man die erwähnten Datenmengen zunächst abspeichern, um sie dann in großen Blöcken aufzubereiten, und mit einem passenden intelligenten Algorithmus zu bearbeiten. Diese Vorgehensweise erweist sich als sehr robust.
In letzter Zeit schwenken, nach anfänglicher Zurückhaltung, immer mehr Firmen auf das Datastreaming zurück, um solche Datenmengen in einem konstanten Strom bearbeiten zu können.
Data Streaming ist demgegenüber wesentlich komplexer und schwieriger zu beherrschen, z.B. weil man unmittelbar mit Datenfehlern umgehen muss. Hierbei verarbeitetet man – beginnend mit der Aufbereitung, bis hin zur Auswertung – die Daten in einem kontinuierlichen Prozess, sobald sie empfangen wurden.
Inzwischen gibt es unterschiedliche Lösungen, die ein Streamprocessing problemlos beherrschen. In vielen Projekten werden hierfür Apache Kafka und Apache Spark Streaming eingesetzt. Apache Kafka ist ein Messagebroker, d.h eine Software, die Daten empfangen und senden kann, wobei sie in der Lage ist, mit Empfangs- und Sendeproblemen so umzugehen, daß keine Daten verloren gehen.
Bei Apache Spark handelt es sich um einen Datenanalysetool, daß mit großen Datenmengen umgehen kann, und ein Add-On ist das besagte Streamingmodul. Ein weiteres Modul ist das Maschine Learning Modul (MLLIB), mit dem man dann auf Maschinenintelligenz zurückgreifen kann.
Oft wird eine Kafkaserver dem Spark Streaming vorgeschaltet, damit auch im Fehlerfall (z.B Netzwerkprobleme) keine Daten verloren gehen. Die Daten aus den Triebwerken würden hier an den Kafkaserver gesendet werden, der sie dann passend an Spark weitergibt.
All denen, die wissen wollen, wie diese spezielle Verarbeitung funktioniert legen ich den Artikel „Structured Streaming mit Apache Spark“ von Heise Select an’s Herz, den ich am Wochenende gelesen habe. In der Anlage finden Sie eine Site von der Sie sich die entsprechenden Notebooks herunterladen können. Den Artikel selbst können Sie bei Heise kaufen (oder in der Bibliothek lesen, so wie ich es getan habe).
Das Original dieses Artikels ist auf →Der Produktmanager erschienen (©Andreas Rudolph). Folgeartikel zum Thema gibt es über die (→Mailingliste), oder indem Sie →mir auf Twitter folgen.
In der Online Version des Artikels finden Sie hier die versprochenen weiterführenden Links: