Zurück

Lokale Sprachmodelle effizient betreiben

Dieser Workshop findet am 18. November 2026 online statt.

Wer keine Sprachmodelle in der Cloud nutzen kann, ist auf lokale Hard- und Software angewiesen. Für kleinere Modelle (SLM mit wenigen Milliarden Paramtern) funktioniert das gut, aber größere (wie z.B. das beliebte Qwen-3.6-27B) sind oft nicht ablauffähig, weil sie nicht in den Speicher der GPU passen und/oder auf der CPU zu langsam laufen.

Für viele Szenarien gibt es gut funktionierende Kompressions- und Beschleunigungsmechanismen, die dieser Workshop strukturiert beleuchtet.

Dazu gehört außerdem eine genaue Betrachtung unterschiedlicher Hardwareszenarien (Intel-CPU, Mac, unterschiedliche GPUs) und ihrer Eignung für verschiedene Anwendungsfälle wie lokales Ausprobieren, Bereitstellung für eine kleine Gruppe oder eine ganze Firma.

Ein Workshop für Data Scientists, technisch versierte LLM-Anwender sowie Personen, die sich um den Betrieb von LLMs kümmern.

Vorkenntnisse

Man sollte schon mal mit Sprachmodellen gearbeitet haben.
Programmierkenntnisse sind nicht erforderlich.

Lernziele

Grundsätzliches Verständnis von Sprachmodellen
Einblick in Quantisierung (Gewichte und Cache)
Kenntnisse von MTP und dessen Anwendungsszenarien

Agenda

Einführung in die Transformer Architektur
Effiziente Nutzung von Embedding-Modellen zum Information Retrieval
Auswahl geeigneter Modelle
Parallele Ausführung und Batch-Größe
Nutzung von Vektordatenbanken mit Quantisierung
Verbesserung der Ergebnisqualität mit Rerankern/Cross-Encodern
Optimierung von generativen Sprachmodellen
transformers-Bibliothek
vLLM
llama.cpp
Quantisierung der Gewichte
Quantisierung des KV-Cache (Turboquant)
Speculative Decoding und Multi-Token Prediction
Skalierbare Architekturen
Pipelines
Verteilung von Einmal-Aufgaben
Zustandslosigkeit, Idempotenz und Caches
Zusammenfassung und Ausblick

Technische Anforderungen

GPU ist hilfreich, wenn man alle vorgestellten Varianten ausprobieren möchte.
PC (oder besser Mac) mit viel Arbeitsspeicher ist auch möglich.
Für vLLM und die transformers-Bibliothek wird Python benötigt.

Speaker

Christian Winkler beschäftigt sich seit vielen Jahre mit künstlicher Intelligenz, speziell in der automatisierten Analyse natürlichsprachiger Texte (NLP). Als Professor an der TH Nürnberg konzentriert er sich auf die Optimierung von User Experience mithilfe moderner Verfahren. Er forscht und publiziert zu Natural Language Processing und ist regelmäßig Sprecher auf Machine-Learning-Konferenzen.