0
\begin{equation}
Q_{t+1}(s_t,a_t) = Q_{t}(s_t,a_t) +\alpha
(R_{t+1} + \gamma * \max(Q_t(s_{t+1}, a)) - Q_t(s_t, a_t))
\end{equation}
In obiger Gleichung ist es ein Begriff max(Q_t(s_{t+1},a))
Jetzt sagen, nachdem Sie eine Aktion im Zustand nehmen s_t
was s _{t+1}
. Es gibt keine verfügbaren Züge in s_ {t + 1}. Das Spiel endete im Draw, Was ist das max(Q_t(s_{t+1},a))
dann?Q-Wert für den absorbierenden Zustand
Können Sie bitte die Definition erwähnen. –
Ich habe die Antwort bearbeiten, um eine Referenz hinzuzufügen. –
Danke, wenn möglich, fügen Sie bitte die explizite Definition in die Antwort ein. –