Zurück

Datenmanagement mit dbt

Daten sind die Basis für jedes ML-Produkt. Entsprechend gibt es eine Vielzahl möglicher Lösungen, oft mit Blob-Storages, großen Clustern und Python- oder PySpark-Code. Dazu kommen dann noch schwergewichtige Governance Lösungen.

Aber es geht für viele Use Cases und Unternehmen auch einfacher: Good old SQL, auf einer On-Premises-Datenbank oder einem modernen Cloud-Datawarehouse wie Snowflake oder Google BigQuery. SQL ist vergleichsweise einfach zu lernen und kann unkompliziert auf einer Datenbank ausgeführt werden. Entsprechend ist es bei vielen Datenanalysten sehr beliebt. In der Realität findet man dann aber häufig das Pattern: Python-Glue-Code in Notebooks, der SQL-Statements ausführt.

dbt (data build tool) ist ein Kommandozeilentool, um SQL-Datenpipelines strukturiert aufzubauen. Es ermöglicht auch die Validierung der Daten. Und als Ergebnis gibt es nicht nur Tabellen in einer Datenbank, sondern auch noch Dokumentation und Abhängigkeitsgraphen – ein Data Catalog light. Das Ganze hilft nicht nur beim Aufbereiten von Daten. Auch die darauffolgenden, regelmäßigen Analysen und Auswertungen lassen sich so bequem automatisieren. Inklusive Rückverfolgbarkeit, welche Analyse welche Daten benutzt. Und auch die Versionierung von Daten lässt sich mit wenig Aufwand abbilden.

Speaker

Matthias Niehoff unterstützt als Head of Data & AI der codecentric Kunden bei Design und Umsetzung von Datenarchitekturen. Dabei liegt sein Fokus auf der notwendigen Infrastruktur und Organisation, um Daten- und KI-Projekten zum Erfolg zu verhelfen.