Ich möchte einige hilfreiche Anweisungen zur Verwendung des Q-Learning-Algorithmus mit Funktionsapproximation erhalten. Für den grundlegenden Q-Learning-Algorithmus habe ich Beispiele gefunden und ich denke, dass ich es verstanden habe. Im Falle der Verwendung der Funktionsannäherung stehe ich in Schwierigkeiten. Kann mir jemand anhand eines kurzen Beispiels erklären, wie es funktioniert?Q-Learning mit linearer Funktionsannäherung
Was ich weiß:
- Istead der Matrix für Q-Werte, die wir Funktionen und Parameter verwenden.
- Machen Sie eine Annäherung an die Linearkombination von Featern und Parametern.
- Aktualisieren Sie die Parameter.
Ich habe dieses Papier geprüft: Q-learning with function approximation
Aber ich kann nicht jede nützliche Tutorial, wie es zu benutzen.
Vielen Dank für Ihre Hilfe!