Ich konnte nicht verstehen, wie Q Werte für Tic Tac Toe Spiel aktualisiert werden. Ich habe alles darüber gelesen, aber ich konnte mir nicht vorstellen, wie ich das machen soll. Ich lese, dass Q-Wert
ε-gierige Politik Ich weiß, dass der Q-Lernalgorithmus sollte zwischen Exploration und Ausbeutung zu balancieren versuchen. Da ich ein Anfänger auf diesem Gebiet bin, wollte ich eine einfache Version
Ich habe Q-Learning umgesetzt, wie beschrieben, http://web.cs.swarthmore.edu/~meeden/cs81/s12/papers/MarkStevePaper.pdf Um ca.. Q (S, A) verwende ich eine neurale Netzwerkstruktur wie die folgende, Ak