Lessons Learned aus einem NLP-Projekt mit der Landeshauptstadt München
Wer findet die Intranet-Suche der eigenen Organisation so richtig gut? Uns hat bis jetzt keine wirklich überzeugt. Daher haben wir in unserem angewandten Forschungsprojekt XNEXT untersucht, wie weit wir kommen, wenn wir die neusten verfügbaren Technologien (Transformer, Dense Passage Retrieval, Extractive Question Answering, Semantic Parsing, uvm) zu einem Wissensassistenten kombinieren.
Dieser Wissensassistent soll Fragen zu den Dienstleistungen der Landeshauptstadt München beantworten und relevante Informationsquellen heraussuchen. In unserem Projekt konnten wir viele Erkenntnisse über die Brauchbarkeit der einzelnen Technologien in einem domänenspezifischen Kontext gewinnen. Wie wir unser Projekt technisch aufgebaut, welche Lessons Learned wir daraus gezogen und welche Ideen wir für die Zukunft haben, möchten wir gerne mit euch teilen. Spoiler: Domänenspezifische Trainingsdaten bringen richtig viel!
Vorkenntnisse
Wir steigen bis zu einem gewissen Grad in die Themen Natural Language Processing, Tokenization, Transformer, Language Models, Dense Passage Retrieval, Extractive Question Answering und Semantic Parsing ein. Es schadet daher nicht, schon einmal etwas von neuronalen Netzen, Supervised Learning, Semi-Supervised Learning, Transformer, Attention und Sprachmodellen gehört zu haben.
Lernziele
Ein paar Modelle von huggingface runterladen und los geht’s? So einfach war es in unserem Projekt definitiv nicht. Wie wir vorgegangen sind, welche Stolpersteine wir gefunden und wie wir diese überwunden haben, zeigen wir in unserem Vortrag.
Im Idealfall profitieren die Zuhörenden von unseren Erfahrungen und sind dann für ihre eigenen zukünftigen NLP-Projekte besser gewappnet und können manche Herausforderungen im Vorfeld besser einkalkulieren. Außerdem geben wir Einblicke in unsere technischen Lösungsansätze.