q-learning

1Hitze

1Antwort

Reinforcement Learning - Wie weiß ein Agent, welche Aktion ausgewählt werden soll?

Ich versuche Q-Learning Die grundlegende Update Formel zu verstehen: Q(st, at) += a[rt+1, + d.max(Q(st+1, a)) - Q(st,at)] ich die Formel verstehen, und was es tut, aber meine Frage ist: Wie Kennt de

0Hitze

1Antwort

Q-Wert für den absorbierenden Zustand

\begin{equation} Q_{t+1}(s_t,a_t) = Q_{t}(s_t,a_t) +\alpha (R_{t+1} + \gamma * \max(Q_t(s_{t+1}, a)) - Q_t(s_t, a_t)) \end{equation} In obiger Gleichung ist es ein Begriff max(Q_t(s_{t+1},a)) Je

-3Hitze

1Antwort

Was ist tiefes q-Lernen

Was ist tiefes q-Lernen? Ist es dasselbe wie Lernen mit Tiefenverstärkung? Wie geht es um tiefe neuronale Netze? Wie in was muss zu den tiefen neuralen Netzen hinzugefügt werden, damit es tiefes q-lea

1Hitze

1Antwort

Javascript - Verhindern von Chrome von der Seite während der langen Schleife zu töten

Chrome tötet die Seite in der Mitte meines Connect-vier-Browser-Spiels, wenn es ordnungsgemäß ausgeführt wird. Das Spiel ist ein Spieler gegen Computer Setup und das Spiel selbst läuft einwandfrei und

0Hitze

1Antwort

Wie normalisiere ich Gewichte q-lernen mit linearer Funktionsapproximation

Ich entwickle ein einfaches Spielprogramm, um q-learning mit linearer Funktionsannäherung zu zeigen. screen shot In diesem Spiel gibt es unzählige Staaten. Ich muss viele Faktoren wie die Position des

0Hitze

1Antwort

Q-Learning mit linearer Funktionsannäherung

Ich möchte einige hilfreiche Anweisungen zur Verwendung des Q-Learning-Algorithmus mit Funktionsapproximation erhalten. Für den grundlegenden Q-Learning-Algorithmus habe ich Beispiele gefunden und ich

2Hitze

1Antwort

Q Lernen für Ludo Spiel?

Ich bin im Moment versucht, einen KI-Player mit Q-Learning zu spielen gegen 2 verschiedene zufällige Spieler zu implementieren. Ich bin nicht sicher, Q-Learning ist für ein Ludo-Spiel, das, warum ich

1Hitze

1Antwort

Aktionsauswahl mit Softmax?

Ich weiß, dass dies eine ziemlich dumme Frage sein könnte, aber was zur Hölle .. Ich versuche im Moment, Soft Max Aktion Selektor, der die Boltzmann-Verteilung verwendet implementieren. Formula Was ic

1Hitze

1Antwort

DeepMind-Atari-Tief-Q-Learner (DQN) kann keine Spiel-ROMs außer Breakout

Ich studiere https://github.com/kuz/DeepMind-Atari-Deep-Q-Learner in diesen Tagen. Ich habe erfolgreich Breakout an meiner Maschine trainiert. Als ich jedoch versuchte, die von http://www.atariage.com

1Hitze

1Antwort

Hinzufügen von Einschränkungen in Q-Learning und Zuweisen von Belohnungen, wenn Einschränkungen verletzt werden

Ich habe kürzlich einen RL-Kurs absolviert und schreibe einen Q-Learning-Controller für eine Energieverwaltungsanwendung mit kontinuierlichen Zuständen und diskreten Aktionen. Ich verwende ein neurona