q-learning

9Hitze

2Antwort

Ich konnte nicht verstehen, wie Q Werte für Tic Tac Toe Spiel aktualisiert werden. Ich habe alles darüber gelesen, aber ich konnte mir nicht vorstellen, wie ich das machen soll. Ich lese, dass Q-Wert

13Hitze

2Antwort

Optimal epsilon (ε-greedy) Wert

ε-gierige Politik Ich weiß, dass der Q-Lernalgorithmus sollte zwischen Exploration und Ausbeutung zu balancieren versuchen. Da ich ein Anfänger auf diesem Gebiet bin, wollte ich eine einfache Version

7Hitze

1Antwort

Fragen zu Q-Learning Neuronale Netze mit

Ich habe Q-Learning umgesetzt, wie beschrieben, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Um ca.. Q (S, A) verwende ich eine neurale Netzwerkstruktur wie die folgende, Ak