Autonomes Browsen mit Large Action Models aka LLM-Agents
Der Browser ist unser Zugang zum Internet, dem größten Wissensspeicher und Marktplatz der Menschheitsgeschichte. Der effiziente Umgang mit ihm ist eine Kernkompetenz für fast jeden Beruf - und wird auch für die Künstliche Intelligenz von zentraler Bedeutung sein.
Aber können LLMs schon selbstständig mit einem Browser arbeiten? Und was sind eigentlich diese Large-Action-Modelle, die versprechen, menschliche Absichten in Handlungen umzusetzen?
Wir berichten aus einem Projekt, in dem der gesamte Bewerbungsprozess mit Hilfe von KI automatisiert wird. Vom Navigieren in unbekannten Webseitenstrukturen über das Ausfüllen von Formularen bis hin zum Umgang mit Dokumenten-Upload und Cookie-Bannern.
Vorkenntnisse
Ein Basisverständnis von LLM-Agenten ist hilfreich.
Lernziele
- Verstehen, was Large Action Models sind und worin sie sich von LLM Agenten unterscheiden
- Einblicke in die Ausführung browserbasierter Aufgaben mithilfe von LLM-Agenten erhalten
- Überblick über verfügbare Open-Source-Projekte und -Tools zur Realisierung von Browser-Automatisierungen gewinnen