Ziel
Ziel dieser Simulation ist die Veranschaulichung der Arbeitsweise eines Reinforcement-Lernverfahrens anhand des Q-Learnings zur Steuerung eines simulierten Roboters in einem Labyrinth.
Beschreibung des Verfahrens
Q-Learning ist eine Spielart des Reinforcementlearnings. Es basiert auf sogenannten Zustands-Aktions-Paaren und erlernt durch "trial and error" eine bezüglich der vordefinierten Reinforcementfunktion optimale Aktionsstrategie.
In der konkreten Anwendung wurde ein neuronales Clusterverfahren, das Neural Gas, genutzt, um den vorhandenen kontinuierlichen Situationsraum, welcher durch die 3 Entfernungsmessungen des simulierten Roboters aufgespannt wird, auf eine diskrete Untermenge abzubilden.
Bedienungsanleitung
Die Simulation des Reinforcement-Lernprozesses kann mit den drei Buttons "start", "step" und "reset" gesteuert werden. "start" startet einen fortlaufenden Lernprozeß. "step" führt genau einen Schritt nach folgendem Schema aus:
Auslesen der drei Entfernungssensoren des simulierten Roboters, welche die Entfernungen der nächsten Wände in den Richtungen -45 °, 0 ° und 45 ° bezüglich der aktuellen Roboterorientierung (Linie) messen
Bestimmung des zugehörigen Zustandes durch Clusterung des aktuellen Entfernungsprofiles durch das NG-Netzwerk
Bestimmung der Q-Werte der in diesem Zustand möglichen Aktionen (3 Geschwindigkeiten und 3 Lenkwinkel)
Addition eines Zufallsvektors, um ein gewisses Maß eines Explorationsverhaltens sicherzustellen
Ausführung der Aktion mit dem höchsten Q-Wert
Erhalten des skalaren und unspezifischen Rewardsignales, welches das Verhalten des Roboters bewertet (Kollisionen mit Wänden werden hart bestraft, schnelles Fahren ohne Lenken wird belohnt)
Adaption der Gewichte des Clusterers und der Q-Werte
"reset" setzt alle Netzwerkparameter auf die Defaulteinstellungen zurück.
Die Grafische Darstellung zeigt einerseits eine virtuelle Draufsicht auf das verwendete Labyrinth, wobei die Wände als schwarze Geraden dargestellt sind. Der Roboter wird durch einen schwarzen Kreis symbolisiert, wobei dessen Orientierung (=Fahrtrichtung) durch eine kleine Markierung angedeutet wird.
Im unteren Teil ist ein Diagramm dargestellt, welches den Verlauf des Rewardssignales über der Zeit grafisch darstellt.
