0

Ich möchte einige hilfreiche Anweisungen zur Verwendung des Q-Learning-Algorithmus mit Funktionsapproximation erhalten. Für den grundlegenden Q-Learning-Algorithmus habe ich Beispiele gefunden und ich denke, dass ich es verstanden habe. Im Falle der Verwendung der Funktionsannäherung stehe ich in Schwierigkeiten. Kann mir jemand anhand eines kurzen Beispiels erklären, wie es funktioniert?Q-Learning mit linearer Funktionsannäherung

Was ich weiß:

  1. Istead der Matrix für Q-Werte, die wir Funktionen und Parameter verwenden.
  2. Machen Sie eine Annäherung an die Linearkombination von Featern und Parametern.
  3. Aktualisieren Sie die Parameter.

Ich habe dieses Papier geprüft: Q-learning with function approximation

Aber ich kann nicht jede nützliche Tutorial, wie es zu benutzen.

Vielen Dank für Ihre Hilfe!

Antwort

2

Aus meiner Sicht ist this eine der besten Referenzen, um mit zu beginnen. Es ist gut geschrieben mit mehreren Pseudo-Code-Beispielen. In Ihrem Fall können Sie die Algorithmen vereinfachen, indem Sie Eligibility-Traces ignorieren.

Auch nach meiner Erfahrung und abhängig von Ihrem Anwendungsfall, Q-Learning funktioniert möglicherweise nicht sehr gut (manchmal benötigt es große Mengen von Erfahrungsdaten). Sie können beispielsweise den Fitted-Q-Wert testen, bei dem es sich um einen Stapelalgorithmus handelt.