Zurück

Effizientes Datenlabeling zur Performanceoptimierung und Qualitätsprüfung

Wie zahlreich bekannt, tragen neben fortschrittlichen Algorithmen insbesondere die Trainingsdaten eines Supervised-Learning-Modells zur erfolgreichen Prognose bei.

In diesem Vortrag möchten wir uns dem Thema widmen, wie aus Rohdaten schnell und transparent zahlreiche, qualitative Trainingsdaten werden können – auch bei komplexen Anwendungsfällen.

Hierfür stellen wir die Konzepte zum Greenfield und Brownfield Labeling vor und erläutern, wie mit modernen Technologien wie Weak Supervision und Confident Learning Trainingsdaten optimiert werden können.

Vorgestellt werden die Konzepte anhand von einfachen Anwendungsfällen, primär aus dem Natural Language Processing. Die Konzepte sind jedoch datenagnostisch und können auf andere Anwendungsbereiche übertragen werden.

Vorkenntnisse

Besucher:innen sollten idealerweise erste Erfahrungen in Supervised-Learning-Projekten gesammelt haben, da so die Inhalte besser eingeordnet werden können. Gerne können aber auch allgemein Interessierte teilhaben.

Lernziele

Data-Science-Projekte sind sehr vielschichtig, sodass man als Data Scientist einen Werkzeugkasten an Technologien, Frameworks und Konzepten gut gebrauchen kann. Mit diesem Vortrag möchten wir Besuchern neue Konzepte und Tools zeigen, die in eigenen Projekten weiterhelfen können.

Speaker

Johannes Hötter ist studierter Wirtschaftsinformatiker und mehrfach ausgezeichneter Data Engineer vom Potsdamer Hasso Plattner Institut. Seit fünf Jahren ist er im Bereich ML tätig, unter anderem als Berater und Gründer. In Online-Kursen des HPI hat er bereits über 20.000 KI-Interessierten die Grundlagen und Anwendungsgebiete von ML vermittelt.