Zurück

Schluss mit Vibe-Checks! RAG-Systeme datengetrieben evaluieren!

Systeme, die Retrieval Augmented Generation einsetzen, bieten großes Potenzial, präzise Antworten auf Basis der eigenen Wissensbasis zu liefern. Dennoch scheitern viele dieser Systeme in der Praxis, da ihre Bewertung oft auf einer subjektiven Einschätzung, dem sogenannten "Vibe-Check", basiert.

Stattdessen sollten robuste, datengetriebene Metriken genutzt werden, um die Qualität des RAG-Systems zu bewerten. Beispiele hierfür sind sowohl innovative LLM-basierte Metriken wie "Response Relevancy" oder "Faithfulness" als auch klassische Metriken aus dem Bereich des Information-Retrievals wie "Hit Rate" und "Mean Reciprocal Rank".

Anhand eines konkreten Beispiels zeigt dieser Vortrag, welche Metriken aus Evaluations-Bibliotheken wie RAGAS für eine systematische, iterative Verbesserung des Systems geeignet sind und wie diese auf dem Weg zur Produktionsreife eingesetzt werden können.

Vorkenntnisse

Vorteilhaft ist ein grundsätzliches Verständnis eines RAG-Systems. Der Vortrag ist aber auch ohne diese Vorkenntnisse verständlich.

Lernziele

Ziel ist es, konkrete Werkzeuge und Strategien aufzuzeigen, die genutzt werden können, um eigene RAG-Systeme datengetrieben zur Produktionsreife zu bringen und die Abhängigkeit von subjektiven Bewertungen zu minimieren.

Speaker

Tim Wüllner ist Machine Learning Engineer bei der OPEN KNOWLEDGE GmbH in Oldenburg. Nach drei Jahren in der Wissenschaft im Bereich „Autonome Schifffahrt“ begeistert er sich nun für die Umsetzung von ML-Projekten in komplexen Webanwendungen.

Jetzt Tickets sichern