Weak supervision mit Snorkel als Lösungsansatz bei fehlenden Trainingslabels
Die meist mangelnde Verfügbarkeit von gelabelten Trainingsdaten ist eines der Hauptprobleme bei der Verwendung von Machine-Learning-Verfahren in der Praxis. Daten stehen zwar in ausreichender Menge zur Verfügung, eine manuelle Kategorisierung in die korrekten Labels ist allerdings sehr zeitintensiv. Dienste wie Amazons Mechanical Turk sollen hier Abhilfe schaffen, liefern in der Realität aber oftmals unzureichende Ergebnisse.
In diesem Vortrag wird Snorkel, ein Open-Source-Framework zur programmatischen Erzeugung von Labels, vorgestellt. Labels werden hier z.B. durch von Domänen-Experten definierte Heuristiken oder bestehende Regelsysteme erzeugt. Diese Labels werden dann aber nicht als absolute Wahrheit genommen. Vielmehr versuchen verschiedene Verarbeitungsschritte, die Qualität der so erzeugten Labels zu messen und auf dieser Basis ein Trainingsdatenset zusammenzustellen, das über möglichst konfliktfreie, konsistente und vollständige Labels verfügt; diese sollen so nah wie möglich an manuell erzeugte Labels heranreichen, allerdings zu deutlich geringeren Kosten.
Ziel des Vortrags ist es, die in Snorkel implementierten Techniken vorzustellen, sowie zu erklären, für welche Fragestellungen sie besonders geeignet sind und wie sie in eigenen ML-Projekten eingesetzt werden können, um qualitativ hochwertige und robuste Modelle auch bei wenigen gelabelten Daten zu erreichen.
Vorkenntnisse
Grundverständnis von Supervised Machine Learning
Lernziele
* Überblick zum Umgang mit fehlenden Trainingslabels
* Praktische Anwendung von Snorkel auf ungelabelten Datensets
* Limitationen und Fallstricke bei der programmatischen Erzeugung von Traingslabels