Schluss mit Vibe-Checks! RAG-Systeme datengetrieben evaluieren!
Systeme, die Retrieval Augmented Generation einsetzen, bieten großes Potenzial, präzise Antworten auf Basis der eigenen Wissensbasis zu liefern. Dennoch scheitern viele dieser Systeme in der Praxis, da ihre Bewertung oft auf einer subjektiven Einschätzung, dem sogenannten "Vibe-Check", basiert.
Stattdessen sollten robuste, datengetriebene Metriken genutzt werden, um die Qualität des RAG-Systems zu bewerten. Beispiele hierfür sind sowohl innovative LLM-basierte Metriken wie "Response Relevancy" oder "Faithfulness" als auch klassische Metriken aus dem Bereich des Information-Retrievals wie "Hit Rate" und "Mean Reciprocal Rank".
Anhand eines konkreten Beispiels zeigt dieser Vortrag, welche Metriken aus Evaluations-Bibliotheken wie RAGAS für eine systematische, iterative Verbesserung des Systems geeignet sind und wie diese auf dem Weg zur Produktionsreife eingesetzt werden können.
Vorkenntnisse
Vorteilhaft ist ein grundsätzliches Verständnis eines RAG-Systems. Der Vortrag ist aber auch ohne diese Vorkenntnisse verständlich.
Lernziele
Ziel ist es, konkrete Werkzeuge und Strategien aufzuzeigen, die genutzt werden können, um eigene RAG-Systeme datengetrieben zur Produktionsreife zu bringen und die Abhängigkeit von subjektiven Bewertungen zu minimieren.