Weak supervision mit Snorkel als Lösungsansatz bei fehlenden Trainingslabels

Die meist mangelnde Verfügbarkeit von gelabelten Trainingsdaten ist eines der Hauptprobleme bei der Verwendung von Machine-Learning-Verfahren in der Praxis. Daten stehen zwar in ausreichender Menge zur Verfügung, eine manuelle Kategorisierung in die korrekten Labels ist allerdings sehr zeitintensiv. Dienste wie Amazons Mechanical Turk sollen hier Abhilfe schaffen, liefern in der Realität aber oftmals unzureichende Ergebnisse.

In diesem Vortrag wird Snorkel, ein Open-Source-Framework zur programmatischen Erzeugung von Labels, vorgestellt. Labels werden hier z.B. durch von Domänen-Experten definierte Heuristiken oder bestehende Regelsysteme erzeugt. Diese Labels werden dann aber nicht als absolute Wahrheit genommen. Vielmehr versuchen verschiedene Verarbeitungsschritte, die Qualität der so erzeugten Labels zu messen und auf dieser Basis ein Trainingsdatenset zusammenzustellen, das über möglichst konfliktfreie, konsistente und vollständige Labels verfügt; diese sollen so nah wie möglich an manuell erzeugte Labels heranreichen, allerdings zu deutlich geringeren Kosten.

Ziel des Vortrags ist es, die in Snorkel implementierten Techniken vorzustellen, sowie zu erklären, für welche Fragestellungen sie besonders geeignet sind und wie sie in eigenen ML-Projekten eingesetzt werden können, um qualitativ hochwertige und robuste Modelle auch bei wenigen gelabelten Daten zu erreichen.

Vorkenntnisse

Grundverständnis von Supervised Machine Learning

Lernziele

* Überblick zum Umgang mit fehlenden Trainingslabels
* Praktische Anwendung von Snorkel auf ungelabelten Datensets
* Limitationen und Fallstricke bei der programmatischen Erzeugung von Traingslabels

 

Speaker

 

Florian Müller
Florian Müller ist Wirtschaftsinformatiker und arbeitet als Senior Data Scientist/Engineer in Hamburg. Er beschäftigt sich mit der Anwendung von Machine-Learning-Verfahren im wirtschaftlichen Kontext, ihrem Deployment in produktiven Umgebungen und dem damit verbundenen Monitoring und Interpretieren der laufenden Modelle.

Gold-Sponsor

Novatec

Silber-Sponsor

inovex

M3-Newsletter

Sie möchten über die Minds Mastering Machines
auf dem Laufenden gehalten werden?

 

Anmelden