Rechnungen im Gesundheitswesen enthalten auf der einen Seite strukturierte Informationen in Form von Tabellen mit Gebührenziffern, Mengenangaben und Beträgen. Die Prüfung strukturierter Daten kann mit Mitteln der Prädikatenlogik effizient automatisiert werden, auch wenn die zu berücksichtigende Logik komplex ist. Auf der anderen Seite enthalten solche Rechnungen unstrukturierte Daten in Form kurzer Leistungsbeschreibungen.
Eine häufige Aufgabe ist die Klassifikation dieser Texte, beispielsweise die Zuordnung einer passenden Gebührenziffer.
Diese Aufgaben kann mit Einsatz eines aktuellen Verfahrens aus dem Natural Language Processing gelöst werden, das auf Deep Learning beruht.
Vorkenntnisse
Vorkenntnisse sind nicht erforderlich
Lernziele
* Möglichkeiten der praktischen Anwendung eines aktuellen Verfahrens des Natural Language Processing
* Vorgehen bei Einsatz eines Convolutional Neural Networks, wie in https://arxiv.org/pdf/1509.01626.pdf beschrieben
* Implementierung des CNN mit Google Tensorflow
* Anpassung des CNN an die besondere Aufgabenstellung (vergleichsweise kurze Texte aus optischer Texterkennung, fehlerbehaftet)
* Vor- und Nachteile im Vergleich mit anderen Verfahren (Stanford Classifier, Cloud Services für NLP)
// Gerhard Hausmann
ist Mathematiker und Architekt für wissensbasierte Systeme bei der Barmenia Kankenversicherung a.G.