Zurück

LLM Benchmarking: Wie die Performance von LLMs gemessen wird

Large Language Models zeichnen sich vor allem durch ihre scheinbar universelle Einsetzbarkeit aus. Ohne aufwendiges Training können die Modelle Aufgaben durch natürlichsprachliche Instruktionen lösen oder anhand weniger Beispiele Verallgemeinerungen treffen. Die Fähigkeiten reichen von Information Extraction und dem Erstellen textueller Zusammenfassungen bis hin zur Codegenerierung und logischen Schlüssen.

Aber nicht jedes Modell ist gleich gut für jede Aufgabe geeignet. Benchmarks wie HellaSwag dienen dazu, die Leistungsfähigkeit der Modelle auf den Prüfstand zu stellen und eine Vergleichsbasis zu schaffen.

Der Vortrag gibt einen Überblick darüber, welche Benchmarks aktuell für die Bewertung von LLMs eingesetzt werden und was dabei gemessen wird.

Speaker

Jens Albrecht beschäftigt sich an der TH Nürnberg mit den Themengebieten Data Analytics und Natural Language Processing. Er ist Co-Autor des Buchs 'Blueprints for Text Analytics Using Python', das bei O'Reilly erschienen ist. Sein aktueller Forschungsschwerpunkt liegt auf der Untersuchung der Einsatzmöglichkeiten von KI-Technologien im Bereich der sozialen Arbeit. Neben seiner Hochschultätigkeit ist er als Vortragender, Trainer und Data Scientist tätig.

Jetzt Tickets sichern