Q-Wert für den absorbierenden Zustand

reinforcement-learning
q-learning

2016-06-13 25 views 0 likes

\begin{equation} 
Q_{t+1}(s_t,a_t) = Q_{t}(s_t,a_t) +\alpha 
(R_{t+1} + \gamma * \max(Q_t(s_{t+1}, a)) - Q_t(s_t, a_t)) 
\end{equation}

In obiger Gleichung ist es ein Begriff max(Q_t(s_{t+1},a)) Jetzt sagen, nachdem Sie eine Aktion im Zustand nehmen s_t was s _{t+1}. Es gibt keine verfügbaren Züge in s_ {t + 1}. Das Spiel endete im Draw, Was ist das max(Q_t(s_{t+1},a)) dann?Q-Wert für den absorbierenden Zustand

Quelle

2016-06-13 Abhishek Bhatia

Antwort

Der Wert der Klemme (aka absorbierend) Zustände sind 0 definitionsgemäß in V und Q-Funktionen, wie sie in Section 3.7 Rich Sutton Buch gelesen werden kann:

Quelle

2016-06-13 09:17:56

Können Sie bitte die Definition erwähnen. –

Ich habe die Antwort bearbeiten, um eine Referenz hinzuzufügen. –

Danke, wenn möglich, fügen Sie bitte die explizite Definition in die Antwort ein. –

Q-Wert für den absorbierenden Zustand

Antwort

Verwandte Themen