Effizientes Datenlabeling zur Performanceoptimierung und Qualitätsprüfung
Wie zahlreich bekannt, tragen neben fortschrittlichen Algorithmen insbesondere die Trainingsdaten eines Supervised-Learning-Modells zur erfolgreichen Prognose bei.
In diesem Vortrag möchten wir uns dem Thema widmen, wie aus Rohdaten schnell und transparent zahlreiche, qualitative Trainingsdaten werden können – auch bei komplexen Anwendungsfällen.
Hierfür stellen wir die Konzepte zum Greenfield und Brownfield Labeling vor und erläutern, wie mit modernen Technologien wie Weak Supervision und Confident Learning Trainingsdaten optimiert werden können.
Vorgestellt werden die Konzepte anhand von einfachen Anwendungsfällen, primär aus dem Natural Language Processing. Die Konzepte sind jedoch datenagnostisch und können auf andere Anwendungsbereiche übertragen werden.
Vorkenntnisse
Besucher:innen sollten idealerweise erste Erfahrungen in Supervised-Learning-Projekten gesammelt haben, da so die Inhalte besser eingeordnet werden können. Gerne können aber auch allgemein Interessierte teilhaben.
Lernziele
Data-Science-Projekte sind sehr vielschichtig, sodass man als Data Scientist einen Werkzeugkasten an Technologien, Frameworks und Konzepten gut gebrauchen kann. Mit diesem Vortrag möchten wir Besuchern neue Konzepte und Tools zeigen, die in eigenen Projekten weiterhelfen können.