Data Orchestration: Worauf es in Zukunft ankommt

Datengetriebene skalierte Services oder Produkte können ohne Dateninfrastrukturen heutzutage gar nicht mehr gedacht werden. Zur Dateninfrastruktur gehört auch die Erstellung von Daten-Pipelines.

Open-Source-Tools wie Apache Airflow aus dem Hause Airbnb helfen seit 2015 dabei, solche Pipelines zu betreiben. Wer zuvor mit Crontabs gearbeitet hat, der weiß, dass Airflow die Datenorchestrierung revolutioniert hat.

Doch erst die Praxiserfahrung mit diesem Tool hat gezeigt, welche Schwachstellen existieren. Basierend auf dieser Erfahrung sind neue Tools entwickelt worden wie Dagster oder Prefect. Die Frage ist demnach: Ist es Zeit, neueren Orchestratoren den Vortritt zu überlassen?

Vorkenntnisse

Der Vortrag richtet sich primär an Data Engineers und Data Scientists, jedoch ist kein „Spezialwissen“ vonnöten. Vorausgesetzt werden Python-Kenntnisse, da Beispiele anhand von Code gezeigt werden. Des Weiteren ist es hilfreich, aber keine Voraussetzung, wenn man schon mit einen der im Abstract genannten Tools gearbeitet hat.

Lernziele

Besucher:innen des Vortrages sollen eine offene Perspektive auf folgende Fragen erhalten:

  • Was wird von modernen Datenorchestrierungstools erwartet?
  • Erfüllt Airflow die heutigen Erwartungen?
  • Was machen die Alternativen (Dagster, Prefect2) anders?

Speaker

 

Raphael Skuza
Raphael Skuza ist Data Engineer bei der inovex GmbH. Zuvor war er Mitglied der International Max-Planck Research School in Heidelberg (IMPRS-PTFS), Promotionsstudent in der Hochenergiephysik in der LHCb Kollaboration in Heidelberg sowie Associate Developer im Infrastruktur-Monitoring bei SAP SE.

M3-Newsletter

Ihr möchtet über die Minds Mastering Machines
auf dem Laufenden gehalten werden?

 

Anmelden