1

Ich versuche Q-LearningReinforcement Learning - Wie weiß ein Agent, welche Aktion ausgewählt werden soll?

Die grundlegende Update Formel zu verstehen:

Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)] 

ich die Formel verstehen, und was es tut, aber meine Frage ist:

Wie Kennt der Agent Q (st, at)?

Ich verstehe, dass ein Agent einige Richtlinien π folgt, aber wie erstellen Sie diese Richtlinie in erster Linie?

  • Meine Agenten spielen Dame, also konzentriere ich mich auf modellfreie Algorithmen.
  • All das Mittel kennt, ist der aktuelle Zustand ist es in.
  • Ich verstehe, dass wenn es eine Aktion ausführt, können Sie das Programm aktualisieren, aber woher weiß es, dass Maßnahmen in erster Linie zu nehmen.
  • Im Moment habe ich:

    • prüfen jeder bewegen Sie von diesem Zustand machen könnte.
    • Wählen Sie aus, welcher Zug den höchsten Nutzen hat.
    • Aktualisieren Sie das Dienstprogramm der Bewegung gemacht.
    • Allerdings löst dies nicht wirklich viel, Sie stecken immer noch in lokalen Minimum/Maximum.

      Also, nur die Dinge abzurunden, meine Hauptfrage ist:

      Wie für einen Agenten, der nichts und ist mit einem modellfreien Algorithmus kennt, generieren Sie eine erste Orientierungs, so wissen es die Aktion nehmen?

    +0

    Momentan wähle ich nur die Aktion, die den höchsten Nutzen bringt, aber ich denke, das ist falsch, weil es die Erkundung stark erschwert. – Samalot

    Antwort

    0

    Diese Update-Formel berechnet inkrementell den erwarteten Wert jeder Aktion in jedem Status. Eine gierige Politik wählt immer die höchste Aktion. Dies ist die beste Vorgehensweise, wenn Sie die Werte bereits gelernt haben. Die häufigste Politik zur Verwendung während des Lernens ist die ε-Greedy-Politik, die die Aktion mit der höchsten Wertigkeit mit der Wahrscheinlichkeit 1-ε und eine zufällige Aktion mit der Wahrscheinlichkeit ε wählt.

    +0

    Danke für die Klärung. Ich hatte sowas schon implementiert, aber ich war ziemlich besorgt, dass mir etwas Riesiges fehlte! – Samalot

    +0

    Sogar Googles Atari-spielende KI verwendet verstärktes Lernen mit einer ε-gierigen Politik. Während des Lernens verringert es allmählich die Werte von 1,0 bis 0,1 über die ersten Millionen Frames. –