Ich renne verteilt tensorflow Ausbildung ähnlich dem Inception sample code aber mit diesem Gerät Setzer:Distributed Tensorflow: Arbeiter OOM getötet wegen
with tf.device(tf.train.replica_device_setter(ps_tasks=1,
worker_device="/job:worker/task:%d" % FLAGS.task_id,
cluster=cluster_spec)):
Die Maschine verfügt über 4 GPUs und 64 GB RAM. Der ps
-Job wird nur auf der CPU ausgeführt und hat zwei worker
Jobs, die auf zwei separaten GPUs ausgeführt werden. Der Res-Speicher-Footprint beider Arbeiter-Jobs nimmt allmählich zu, bis etwa 3000 Schritte, der Chef-Arbeiter von OOM getötet wird (beide Arbeiter besetzen ~ 49% RAM vor dem Absturz). Ich habe es auch mit einem einzelnen Arbeiter versucht, und dieser wird auch getötet. Der ps
Job hat eine viel kleinere Grundfläche. Ich habe versucht, zusammenfassende Ops, Model Saver, Variablen Mittelwertbildner, reduzierte Leser Threads deaktivieren, aber ohne Erfolg.