Zurück

Effizientes Maschinelles Lernen auf On-Premise-Clustern mit Dask

Große ML-Modelle lassen sich heute nur auf verteilten Systemen trainieren. Meist kommen dabei Cloud-basierte Compute-Cluster zum Einsatz. Die benötigten Daten werden vom Host zur Cloud und innerhalb des Clusters kopiert. Das ist ineffizient und unökonomisch.

Lokale Clusterrechner können diese Nachteile ausgleichen. Die Datenhaltung ist effizient, vermeidet unnötige Kopien, garantiert Datensicherheit und effizientes Training.

Wir zeigen am Beispiel eines Dask-Clusters das Training effizienter ML-Modelle mit großen Datensätzen. Die Datenverteilung übernimmt das Clusterdateisystem und garantiert gleichzeitig Datensicherheit bei Ausfall einzelner Komponenten.

Vorkenntnisse

Grundlegende Kenntnisse von IT-Systemen und verteilten Dateisystemen

Lernziele

Verständnis für die Nutzung von Datenlokalität
Nutzung von verteilten Systemen zur Datensicherung
Vor- und Nachteile von On-Premise-Systemen abschätzen können

Speaker

Max Conzen ist Wissenschaftlicher Mitarbeiter in den Bereichen Software Engineering, Data Engineering und Data Science an der Fachhochschule Aachen.

Jetzt Tickets sichern