Ich versuche Q-LearningReinforcement Learning - Wie weiß ein Agent, welche Aktion ausgewählt werden soll?
Die grundlegende Update Formel zu verstehen:
Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)]
ich die Formel verstehen, und was es tut, aber meine Frage ist:
Wie Kennt der Agent Q (st, at)?
Ich verstehe, dass ein Agent einige Richtlinien π folgt, aber wie erstellen Sie diese Richtlinie in erster Linie?
Im Moment habe ich:
- prüfen jeder bewegen Sie von diesem Zustand machen könnte.
- Wählen Sie aus, welcher Zug den höchsten Nutzen hat.
- Aktualisieren Sie das Dienstprogramm der Bewegung gemacht.
Allerdings löst dies nicht wirklich viel, Sie stecken immer noch in lokalen Minimum/Maximum.
Also, nur die Dinge abzurunden, meine Hauptfrage ist:
Wie für einen Agenten, der nichts und ist mit einem modellfreien Algorithmus kennt, generieren Sie eine erste Orientierungs, so wissen es die Aktion nehmen?
Momentan wähle ich nur die Aktion, die den höchsten Nutzen bringt, aber ich denke, das ist falsch, weil es die Erkundung stark erschwert. – Samalot