Zurück

Reinforcement Learning oder: Warum mich mein Arbeitgeber fürs Spielen bezahlt!

Seit der Erfindung von Computern stellen komplexe Brettspiele wie Schach oder Go beliebte und herausfordernde Problemstellungen zur Entwicklung von Algorithmen der künstlichen Intelligenz (KI) dar. Dank stark gestiegener Rechenleistungen und damit verbundener Fortschritte im Bereich der KI haben sich auf Reinforcement Learning basierende Systeme in vielen solcher Spiele mittlerweile als Dauergewinner etabliert.

Für Schlagzeilen sorgte insbesondere Deepminds Ansatz in Alpha Zero: Hierbei entscheidet eine komplexe Software anhand von situativen Handlungsempfehlungen, welche Handlung (Spielzug) sie als Nächstes ausführt, um die definierten Ziele (z. B. möglichst schnell zu gewinnen) zu erreichen. Für die Handlungsempfehlungen lenkt ein neuronales Netz durch die Simulation verschiedener möglicher Folgespielzüge, um so die möglichst beste Handlung zu identifizieren. Über die Zeit hinweg lernt das neuronale Netz, zwischen potenziell zielführenden und weniger zielführenden Simulationen zu unterscheiden, und optimiert so den Prozess der Handlungsempfehlung.

Diese Methodik lässt sich auch auf andere Spiele und auf beliebig viele Spieler erweitern. Tatsächlich lassen sich sogar Aufgaben des täglichen Lebens oftmals zumindest näherungsweise als solch ein simulierbares sequenzielles, kombinatorisches Spiel betrachten – beispielsweise Reiseplanungen (z. B. möglichst kurze Strecke), Logistik (z. B. ideale Beladung von Containern) oder Materialnutzung (z. B. ideale Schnittmusterplatzierung für möglichst geringen Verschnitt).

In meinem Vortrag stelle ich unsere Arbeiten bei infoteam anhand eines Reinforcement-Learning-Frameworks vor und zeige beispielhaft, welche Schritte in der Modellierung nötig sind, damit unsere Kunden zukünftig jedes Optimierungsspiel gewinnen.

Speaker

Stefano Signoriello arbeitet seit 2018 als Lead Data Scientist bei der infoteam Software AG. Dort beschäftigt er sich hauptsächlich mit datenbasierter Modellierung und Optimierung, schwerpunktmäßig mit neuronalen Netzen (vor allem für „Latent Representation Learning“ und „Deep Reinforcement Learning“). Vor seiner Zeit bei infoteam hat er am Department Mathematik der Friedrich-Alexander-Universität Erlangen-Nürnberg im Bereich Variationsrechnung/Partielle Differenzialgleichungen promoviert und gelehrt.

Jetzt Tickets sichern