2016-05-19 13 views
2

Ich bin im Moment versucht, einen KI-Player mit Q-Learning zu spielen gegen 2 verschiedene zufällige Spieler zu implementieren.Q Lernen für Ludo Spiel?

Ich bin nicht sicher, Q-Learning ist für ein Ludo-Spiel, das, warum ich bin ein bisschen zweifelhaft darüber ..

Ich habe für das Spiel definiert 11 Staaten. Jeder Status wird entsprechend der Position der anderen Spieler definiert.

Meine möglichen Aktionen ist 6, (durch den Würfel eingeschränkt).

Theoretisch könnte ich vier verschiedene Zustände haben (Einen für jedes Ludo Token) Welche die von den Würfeln gewählte Aktion ausführen kann, aber ich würde einfach den Token mit dem höchsten Q (s, a) und peform verschieben die Aktion ..

Was ich nicht bekomme ist, was in der Update-Phase passieren wird.

Ich verstehe ich den vorherigen Wert aktualisieren, mit dem neuen Wert ..

Basierend aus dem Wiki das Update wie dies gegeben ist:

enter image description here

Was ich nicht bekommen ist, wie Der Belohnungswert unterscheidet sich vom alten Wert? Wie ist es definiert und wie unterscheidet es sich für diese Werte in der Matrix?

Antwort

0

Die Belohnung ist die Belohnung für einen bestimmten Zug, und der alte q-Wert ist der Wert in der Q-Tabelle, der als Aktion gewählt wurde, der im gegebenen Zustand am attraktivsten war. Die Belohnung wird diesen Eintrag aktualisieren, so dass der Algorithmus in der Zukunft wissen wird, ob entweder der Umzug profitiert oder das Ergebnis schlechter gemacht wurde.