NLP in der Praxis – Viele Klassen, fehlerbehaftete Daten und unausgewogene Trainingsmengen

Die Klassifizierung von Objekten auf Bildern mit Unterscheidung vieler Klassen ist einer der großen Erfolge der digitalen Bildverarbeitung: Eine der Aufgaben in ImageNet Large Scale Visual Recognition Challenge (ILSVRC) besteht darin, 1.000 Klassen zu unterscheiden. Seit 2015 erzielen Maschinen bessere Ergebnisse als Menschen.

Ist dies auch im Natural Language Processing (NLP) möglich?

Die Gebührenordnung für Ärzte in Deutschland unterscheidet mehr als 2.800 verschiedene Gebührencodes für die Klassifizierung und Abrechnung von ärztlichen Leistungen. Die Barmenia Krankenversicherung betreibt einen auf Deep-Learning basierenden Klassifikator, der kurzen Texten aus Arztrechnungen passende Gebührencodes zuordnen kann. Der Klassifikator ist für die 1.650 am häufigsten verwendeten Gebührencodes ausgelegt und erreicht eine Trefferquote von mehr als 98 Prozent.

Vorkenntnisse

Grundkenntnisse im Bereich Convolutional Neural Networks

Lernziele

* Einsatz von tiefen und sehr tiefen Convolutional Neural Networks für die Klassifikation von Texten
* Anpassung von CNN für kurze und fehlerbehaftete Texte aus der optischen Zeichenerkennung
* Konstruktion eines Klassifikators für unausgewogene Trainingsdaten

Speaker

 

Gerhard Hausmann
Gerhard Hausmann arbeitete nach dem Studium der Mathematik zunächst als Lehrer im Bereich der beruflichen Bildung. Ab 2000 entwickelte er Software für die Barmenia in Wuppertal, wo er heute als Architekt für wissensbasierte Systeme tätig ist. Sein Arbeitsschwerpunkt ist die Prozessautomation, insbesondere die Entwicklung von Expertensystemen für die Prüfung von Rechnungen und von Automaten für die Dunkelverarbeitung von Leistungsanträgen in der Krankenversicherung.

M3-Newsletter

Ihr möchtet über die Minds Mastering Machines
auf dem Laufenden gehalten werden?

 

Anmelden