Data Sampling in der Praxis – Grundlagen, Herausforderungen und Best Practices

Für das Training von Machine Learning (ML) Algorithmen werden Datensätze in einen Trainings- und einen gesonderten Test-Datensatz geteilt. In idealisierten Beispielen aus Büchern und Online-Kursen werden die vorhandene Datensätze dabei meist zufällig aufgeteilt - der Datensatz wird “gesplittet”.

In der Praxis, insbesondere in der Industrie und angewandten Forschung, sind die vorhandenen Daten selten jedoch ideal. In ihrem Vortrag zeigen Felix M. Riese und Florian Schäfer, warum viele Datensätze nicht einfach zufällig gesplittet werden sollten, welche Alternativen Ansätze existieren und wie diese mit gängigen Python Libraries genutzt werden können. Präsentiert wird dies anhand zweier Beispiele aus ihrem Forschungsalltag: Als Beispiel für Zeitreihen wird in die Stromnetzplanung und -simulation eingetaucht; als Beispiel für Bilddaten werden Satellitenbilder aus der Umweltforschung betrachtet. Die folgenden Themen werden behandelt:

- Motivation und Notwendigkeit von Data Splitting / Sampling
- Übersicht über verschiedene Ansätze des Data Splitting
- Data Splitting an Zeitreihen am Beispiel der Stromnetzplanung
- Data Splitting auf (Satelliten-)Bildern am Beispiel der Umweltforschung
- Best Practices für verschiedene Datentypen und ML Modelle
- Code in Python und verschiedenen Paketen (auf GitHub verfügbar)

Vorkenntnisse

* Für den Vortrag: Einfaches theoretisches Verständnis von „Machine Learning“-Konzepten
* Für die Beispiele: Grundlegende Python-Kenntnisse

Lernziele

* Erkennen von Problemen im Data Splitting
* Auswahl und Anwendung von Splitting-Methoden für verschiedene Datensätze und ML Modelle
* Empfehlung zur Gewichtung relevanter und übriger Features im Datensatz zueinander

Speaker

 

Felix M. Riese
Felix M. Riese Felix M. Riese hat einen Master in experimenteller Teilchenphysik und promoviert derzeit am Karlsruher Institut für Technologie (KIT) im Bereich Computer Vision und Geowissenschaften. Parallel macht er einen MBA am Collège des Ingénieurs in Paris. Seine Forschungsschwerpunkte sind Machine Learning und hyperspektrale Fernerkundung.

Florian Schäfer
Florian Schäfer Florian Schäfer erwarb 2016 Master-Abschluss in Elektrotechnik, Informationstechnik und technischer Informatik an der RWTH Aachen. Seitdem ist er Doktorand am Lehrstuhl für Energiemanagement und Betrieb elektrischer Netze der Universität Kassel. Sein Forschungsschwerpunkt liegt in der Entwicklung von Zeitreihen-basierten Stromnetzplanungsverfahren unter Anwendung maschinellen Lernens. Er ist zudem MBA-Fellow am Collège des Ingénieurs in Paris.

M3-Newsletter

Ihr möchtet über die Minds Mastering Machines
auf dem Laufenden gehalten werden?

 

Anmelden