Überwachtes Lernen als Simulationstool zur Abbildung realer Umgebungen für Aufgaben des bestärkenden Lernens

Von Menschen konstruierte, ausgelegte und letztendlich geschaffene Maschinen bestehen oft aus einer Vielzahl von Subsystemen. Das Gesamtsystem zu bauen ist eine Herausforderung, es jedoch letztendlich sachgerecht zu steuern eine oft viel Größere. Algorithmen des bestärkenden Lernens wie TRPO (Trust Region Policy Optimization), PPO (Proximal Policy Optimization) und DDPG (Deep Deterministic Policy Gradient) haben sowohl in komplexen Simulationsumgebungen wie DOTA 2, StarCraft II und bei Steueraufgaben der Robotik große Erfolge verbuchen können, sind jedoch bisher kaum zu Kontrollaufgaben komplexerer Maschinen vorgedrungen. Das liegt vor allem an der fehlenden Havariesicherheit, da ein Algorithmus in einer unbekannten Umgebung erst über zufällige Aktionen lernt wie diese zu kontrollieren ist.

Der Vortrag soll zeigen, wie durch umfassende Tests von Subsystemen, welche obligatorisch für viele Lieferanten sind, eine damit vorliegende, breite Datenbasis dazu genutzt werden kann um im ersten Schritt via „supervised learning“ diese Systemzusammenhänge in neuronale Netze (als nichtlineare Funktionsapproximatoren) zu übertragen und damit ein Blackbox-Simulationstool zu schaffen (nicht Modell basiert). Mit diesem "digitalen Zwilling" des Systems, kann dann in einem zweiten Schritt ein "Actor-Critic" Algorithmus auf Basis einer Belohnungsfunktion lernen welche Stellschrauben die Umgebung mit welchem Einfluss manipulieren. Der „Actor-Critic“ Algorithmus nutzt also den im ersten Schritt aus Messwerten generierten digitalen Zwilling der realen Umgebung als „Trainingsraum“.
Nach dem Training extrahiert man das entstandene "Actor-Network", welches am virtuellen, digitalen Zwilling lernte, um das reale System im dritten Schritt zu kontrollieren.

Vorkenntnisse

Grundlegende Kenntnisse zu neuronalen Netzen

Lernziele

Verständnis über die breiten Möglichkeiten des maschinellen Lernens: Nicht nur für Bilder, Text oder Sprache, auch für Regelungs- und Simulationsaufgaben sind sie geeignet.

Speaker

 

Martin Schiele
Martin Schiele ist wissenschaftlicher Mitarbeiter und Doktorand der an TU Ilmenau, Fachgebiet Kraftfahrzeugtechnik. Er arbeitet an Heißgasprüfständen und hat Zugriff auf Motorenprüfstände. Mit dem Erscheinen von AlphaGo stieg in ihm das Interesse für das Thema und er fragte sich welche maschinellen Lernaufgaben er erforschen könnte, die andere Bereiche berühren als die üblichen (Bilder, Text, Sprache). Mit der Kenntnis, wie schwierig es ist, Maschinen wie einen Verbrennungsmotor oder Kraftwerke zu steuern, überlegte er sich Methoden, um diese Probleme via Maschinellem Lernen anzugehen.

M3-Newsletter

Ihr möchtet über die Minds Mastering Machines
auf dem Laufenden gehalten werden?

 

Anmelden