Verrauschte Daten korrigieren mit Weak Supervision

Für viele NLP-Anwendung werden gelabelte (vorklassifizierte) Datensets benötigt. Diese stehen entweder bereits implizit zur Verfügung (z.B. durch Kategorien in Wikipedia) oder müssen manuell klassifiziert werden.

In beiden Fällen ergeben sich häufig Fehler, die Kategorien sind verrauscht (noisy). Modelle, die mit solchen Daten trainiert werden, können so nicht optimal funktionieren.

Vor kurzer Zeit wurde daher das sogenannte Weak-Supervision-Verfahren entwickelt, das mit genau diesen Daten sehr viel besser umgehen kann. Im Bereich der Named Entity Recoginition wurden damit bereits erhebliche Erfolge erzielt.

Dieser Vortrag geht auf den aktuellen State of the Art ein und zeigt, wie die Methode auch in anderen Szenarien zum Einsatz gebracht werden kann.

Speaker

 

Christian Winkler
Christian Winkler ist Gründer der datanizing GmbH und promovierte in Theoretischer Physik. Er arbeitet seit 20 Jahren in der Softwareentwicklung im Bereich Big Data/KI, insbesondere mit Fokus auf intelligente Algorithmen zur Massendatenverarbeitung im Bereich des Maschinellen Lernens. Als Data Scientist und Solution Architect begleitet er Projekte in den Bereichen Text Mining und Netzwerkanalyse.

M3-Newsletter

Ihr möchtet über die Minds Mastering Machines
auf dem Laufenden gehalten werden?

 

Anmelden