Eine Einführung in Large Language Models
ChatGPT ist fast schon zum Synonym für große Sprachmodelle geworden. Doch das ist nur die Spitze des Eisbergs – es gibt diese Modelle in viel mehr unterschiedlichen Ausprägungen.
Nach der Einführung der Transformer-Architektur durch Google gab es eine wahre Explosion an neuen Modellen. Grundsätzlich kann man zwischen Encoder- und (generativen) Decoder-Modellen unterscheiden, die sich für unterschiedliche Aufgaben eignen.
Dieser Vortrag gibt einen Überblick über die Architektur und die Entwicklung der unterschiedlichen Modelle. Er zeigt, dass sich Modelle auch leicht auf eigener Hardware oder mit kostenlosen Cloud-Diensten ausprobieren lassen und wie man das mit etwas Mühe auch ohne GPU auf der eigenen Hardware ausprobieren kann.
Der Ausblick wagt eine Vorhersage, wie es mit den großen Sprachmodellen vielleicht weitergehen könnte.
Vorkenntnisse
Mit Sprachmodellen als Anwender hat vermutlich jeder/r schon gearbeitet. Grundkenntnisse in Machine Learning sind ebenso hilfreich wie ein Grundverständnis von CPUs, GPUs und Arbeitsspeicher.
Lernziele
- Verständnis der Architektur von großen Sprachmodellen
- Unterscheidung von Encoder- und Decoder-Modellen
- Optimierungsmöglichkeiten für Sprachmodelle
- Kenntnis unterschiedlicher generativer Modelle
- "Gefühl" für die weitere Entwicklung