Überwachtes Lernen als Simulationstool zur Abbildung realer Umgebungen für Aufgaben des bestärkenden Lernens
Von Menschen konstruierte, ausgelegte und letztendlich geschaffene Maschinen bestehen oft aus einer Vielzahl von Subsystemen. Das Gesamtsystem zu bauen ist eine Herausforderung, es jedoch letztendlich sachgerecht zu steuern eine oft viel Größere. Algorithmen des bestärkenden Lernens wie TRPO (Trust Region Policy Optimization), PPO (Proximal Policy Optimization) und DDPG (Deep Deterministic Policy Gradient) haben sowohl in komplexen Simulationsumgebungen wie DOTA 2, StarCraft II und bei Steueraufgaben der Robotik große Erfolge verbuchen können, sind jedoch bisher kaum zu Kontrollaufgaben komplexerer Maschinen vorgedrungen. Das liegt vor allem an der fehlenden Havariesicherheit, da ein Algorithmus in einer unbekannten Umgebung erst über zufällige Aktionen lernt wie diese zu kontrollieren ist.
Der Vortrag soll zeigen, wie durch umfassende Tests von Subsystemen, welche obligatorisch für viele Lieferanten sind, eine damit vorliegende, breite Datenbasis dazu genutzt werden kann um im ersten Schritt via „supervised learning“ diese Systemzusammenhänge in neuronale Netze (als nichtlineare Funktionsapproximatoren) zu übertragen und damit ein Blackbox-Simulationstool zu schaffen (nicht Modell basiert). Mit diesem "digitalen Zwilling" des Systems, kann dann in einem zweiten Schritt ein "Actor-Critic" Algorithmus auf Basis einer Belohnungsfunktion lernen welche Stellschrauben die Umgebung mit welchem Einfluss manipulieren. Der „Actor-Critic“ Algorithmus nutzt also den im ersten Schritt aus Messwerten generierten digitalen Zwilling der realen Umgebung als „Trainingsraum“.
Nach dem Training extrahiert man das entstandene "Actor-Network", welches am virtuellen, digitalen Zwilling lernte, um das reale System im dritten Schritt zu kontrollieren.
Vorkenntnisse
Grundlegende Kenntnisse zu neuronalen Netzen
Lernziele
Verständnis über die breiten Möglichkeiten des maschinellen Lernens: Nicht nur für Bilder, Text oder Sprache, auch für Regelungs- und Simulationsaufgaben sind sie geeignet.