Data Orchestration: Worauf es in Zukunft ankommt
Datengetriebene skalierte Services oder Produkte können ohne Dateninfrastrukturen heutzutage gar nicht mehr gedacht werden. Zur Dateninfrastruktur gehört auch die Erstellung von Daten-Pipelines.
Open-Source-Tools wie Apache Airflow aus dem Hause Airbnb helfen seit 2015 dabei, solche Pipelines zu betreiben. Wer zuvor mit Crontabs gearbeitet hat, der weiß, dass Airflow die Datenorchestrierung revolutioniert hat.
Doch erst die Praxiserfahrung mit diesem Tool hat gezeigt, welche Schwachstellen existieren. Basierend auf dieser Erfahrung sind neue Tools entwickelt worden wie Dagster oder Prefect. Die Frage ist demnach: Ist es Zeit, neueren Orchestratoren den Vortritt zu überlassen?
Vorkenntnisse
Der Vortrag richtet sich primär an Data Engineers und Data Scientists, jedoch ist kein „Spezialwissen“ vonnöten. Vorausgesetzt werden Python-Kenntnisse, da Beispiele anhand von Code gezeigt werden. Des Weiteren ist es hilfreich, aber keine Voraussetzung, wenn man schon mit einen der im Abstract genannten Tools gearbeitet hat.
Lernziele
Besucher:innen des Vortrages sollen eine offene Perspektive auf folgende Fragen erhalten:
- Was wird von modernen Datenorchestrierungstools erwartet?
- Erfüllt Airflow die heutigen Erwartungen?
- Was machen die Alternativen (Dagster, Prefect2) anders?