Lernrate Zerfall in LSTM

Ich reproduzieren derzeit den Code für Char-RNN beschrieben in http://karpathy.github.io/2015/05/21/rnn-effectiveness/. Es gibt Codes, die bereits in Tensorflow implementiert sind und der Code, auf den ich mich beziehe, ist bei https://github.com/sherjilozair/char-rnn-tensorflow/blob/master/train.py Ich habe eine Frage für die Lernrate Decay.In dem Code ist der Optimierer als AdamOptimizer definiert. Als ich den Code durchging, sah ich eine Zeile wie folgt:Lernrate Zerfall in LSTM

die Lernrate durch eine Abklingkonstante angepasst. Meine Frage ist: Ist Adam Optimierer nicht in der Lage, die Lernrate zu kontrollieren? Warum verwenden wir hier noch eine Abnahmerate in Bezug auf die Lernrate?

Quelle

2016-08-02 lina

Ich denke, Sie meinen RMSprop und nicht Adam, beide der Codes, die Sie verwenden RMSprop verwenden. RMSprop skaliert nur Gradienten, um nicht zu große oder zu kleine Normen zu haben. Daher ist es wichtig, die Lernrate zu verringern, wenn wir das Training nach mehreren Epochen verlangsamen müssen.

Quelle

2016-08-05 15:00:15 Priyatham

Antwort

Verwandte Themen