Q-Learning an einer simulierten Ballwelt

Q-Learning ist eine Spielart des Reinforcementlearnings. Das Applet zeigt die Funktionsweise.

Ziel

Ziel dieser Simulation ist die Veranschaulichung der Arbeitsweise eines Reinforcement-Lernverfahrens anhand des Q-Learnings zur Steuerung eines simulierten Balles in einem Gebirge.

Beschreibung des Verfahrens

Q-Learning ist eine Spielart des Reinforcementlearnings. Es basiert auf sogenannten Zustands-Aktions-Paaren und erlernt durch "trial and error" eine bezüglich der vordefinierten Reinforcementfunktion optimale Aktionsstrategie.

In der konkreten Anwendung wurde ein neuronales Clusterverfahren, das Neural Gas, genutzt, um den vorhandenen kontinuierlichen Situationsraum, welcher durch die Position und die Geschwindigkeit des Balles in seiner Umwelt aufgespannt wird, auf eine diskrete Untermenge abzubilden.

Bedienungsanleitung

Die Simulation des Reinforcement-Lernprozesses kann mit den drei Buttons "start", "step" und "reset" gesteuert werden. "start" startet einen fortlaufenden Lernprozeß. "step" führt genau einen Schritt nach folgendem Schema aus:

- Messen von Position und Geschwindigkeit des Balles
- Bestimmung des zugehörigen Zustandes durch Clusterung des aktuellen Entfernungsprofiles durch das NG-Netzwerk
- Bestimmung der Q-Werte der in diesem Zustand möglichen Aktionen (3 Geschwindigkeiten und 3 Lenkwinkel)
- Addition eines Zufallsvektors, um ein gewisses Maß eines Explorationsverhaltens sicherzustellen
- Ausführung der Aktion mit dem höchsten Q-Wert
- Erhalten des skalaren und unspezifischen Rewardsignales, welches das Verhalten des Balles bewertet
- Adaption der Gewichte des Clusterers und der Q-Werte

"reset" setzt alle Netzwerkparameter auf die Defaulteinstellungen zurück.

Die Grafische Darstellung zeigt einerseits die simulierte Ballwelt und im unteren Bereich eine Darstellung der Wichtungen des NG i Kombination mit den zugehörigen Q-Werten.

Im unteren Teil sind verschiedene Diagramme dargestellt, welche den Verlauf des Rewardssignales, der Boltzmanntemperatur und verschiedene Lernraten über der Zeit grafisch darstellt.



Q-Learning an einer simulierten Ballwelt