Data Sampling in der Praxis – Grundlagen, Herausforderungen und Best Practices
Für das Training von Machine Learning (ML) Algorithmen werden Datensätze in einen Trainings- und einen gesonderten Test-Datensatz geteilt. In idealisierten Beispielen aus Büchern und Online-Kursen werden die vorhandene Datensätze dabei meist zufällig aufgeteilt - der Datensatz wird “gesplittet”.
In der Praxis, insbesondere in der Industrie und angewandten Forschung, sind die vorhandenen Daten selten jedoch ideal. In ihrem Vortrag zeigen Felix M. Riese und Florian Schäfer, warum viele Datensätze nicht einfach zufällig gesplittet werden sollten, welche Alternativen Ansätze existieren und wie diese mit gängigen Python Libraries genutzt werden können. Präsentiert wird dies anhand zweier Beispiele aus ihrem Forschungsalltag: Als Beispiel für Zeitreihen wird in die Stromnetzplanung und -simulation eingetaucht; als Beispiel für Bilddaten werden Satellitenbilder aus der Umweltforschung betrachtet. Die folgenden Themen werden behandelt:
- Motivation und Notwendigkeit von Data Splitting / Sampling
- Übersicht über verschiedene Ansätze des Data Splitting
- Data Splitting an Zeitreihen am Beispiel der Stromnetzplanung
- Data Splitting auf (Satelliten-)Bildern am Beispiel der Umweltforschung
- Best Practices für verschiedene Datentypen und ML Modelle
- Code in Python und verschiedenen Paketen (auf GitHub verfügbar)
Vorkenntnisse
* Für den Vortrag: Einfaches theoretisches Verständnis von „Machine Learning“-Konzepten
* Für die Beispiele: Grundlegende Python-Kenntnisse
Lernziele
* Erkennen von Problemen im Data Splitting
* Auswahl und Anwendung von Splitting-Methoden für verschiedene Datensätze und ML Modelle
* Empfehlung zur Gewichtung relevanter und übriger Features im Datensatz zueinander