Wie gut arbeitet mein RAG-System wirklich?
Der Vortrag stellt einen systematischen Ansatz zur Evaluation von RAG-Systemen (Retrieval-Augmented Generation) vor. Zu Beginn werden zentrale Konzepte wie LLM-as-a-Judge, Chain of Thought, GEval, Human-in-the-Loop sowie verschiedene Evaluationsmetriken eingeführt. Diese Grundlagen bilden die Basis für ein fundiertes Verständnis der Bewertungsmethoden im Kontext von RAG-Systemen.
Im zweiten Teil wird eine praktische Evaluation einer Beispielapplikation aus dem vorherigen Vortrag präsentiert. Dabei kommen die Tools MLFlow und DeepEval zum Einsatz, um die Effizienz und Leistungsfähigkeit der Anwendung zu analysieren. Ziel des Vortrags ist es, die praktische Relevanz dieser Evaluationsansätze zu demonstrieren und zu zeigen, wie sie zur Weiterentwicklung und Optimierung von RAG-Systemen beitragen können.
Vorkenntnisse
Die Zuhörenden sollten mit den Grundlagen des maschinellen Lernens, Python und der Anwendung von LLMs vertraut sein.
Lernziele
Die Zuhörenden lernen, wie RAG-Systeme systematisch evaluiert werden können, indem sie zentrale Konzepte, Evaluationsmetriken und Werkzeuge wie MLFlow und DeepEval verstehen und anwenden. Ziel ist es, praxisnah zu vermitteln, wie diese Methoden zur Analyse und Optimierung der Leistungsfähigkeit von RAG-Systemen beitragen.