Lokale Sprachmodelle effizient betreiben
Dieser Workshop findet am 18. November 2026 online statt.
Wer keine Sprachmodelle in der Cloud nutzen kann, ist auf lokale Hard- und Software angewiesen. Für kleinere Modelle (SLM mit wenigen Milliarden Paramtern) funktioniert das gut, aber größere (wie z.B. das beliebte Qwen-3.6-27B) sind oft nicht ablauffähig, weil sie nicht in den Speicher der GPU passen und/oder auf der CPU zu langsam laufen.
Für viele Szenarien gibt es gut funktionierende Kompressions- und Beschleunigungsmechanismen, die dieser Workshop strukturiert beleuchtet.
Dazu gehört außerdem eine genaue Betrachtung unterschiedlicher Hardwareszenarien (Intel-CPU, Mac, unterschiedliche GPUs) und ihrer Eignung für verschiedene Anwendungsfälle wie lokales Ausprobieren, Bereitstellung für eine kleine Gruppe oder eine ganze Firma.
Ein Workshop für Data Scientists, technisch versierte LLM-Anwender und LLM-DevOps.
Vorkenntnisse
- Man sollte schon mal mit Sprachmodellen gearbeitet habe
- Programmierkenntnisse sind nicht erforderlich
Lernziele
- Grundsätzliches Verständnis von Sprachmodellen
- Einblick in Quantisierung (Gewichte und Cache)
- Kenntnisse von MTP und dessen Anwendungsszenarien