2016-06-13 16 views
0
\begin{equation} 
​Q_{t+1}(s_t,a_t) = Q_{t}(s_t,a_t) +\alpha 
(R_{t+1} + \gamma * \max(Q_t(s_{t+1}, a)) - Q_t(s_t, a_t)) 
\end{equation} 

In obiger Gleichung ist es ein Begriff max(Q_t(s_{t+1},a)) Jetzt sagen, nachdem Sie eine Aktion im Zustand nehmen s_t was s _{t+1}. Es gibt keine verfügbaren Züge in s_ {t + 1}. Das Spiel endete im Draw, Was ist das max(Q_t(s_{t+1},a)) dann?Q-Wert für den absorbierenden Zustand

Antwort

2

Der Wert der Klemme (aka absorbierend) Zustände sind 0 definitionsgemäß in V und Q-Funktionen, wie sie in Section 3.7 Rich Sutton Buch gelesen werden kann:

enter image description here

+0

Können Sie bitte die Definition erwähnen. –

+0

Ich habe die Antwort bearbeiten, um eine Referenz hinzuzufügen. –

+0

Danke, wenn möglich, fügen Sie bitte die explizite Definition in die Antwort ein. –