MPI-Checkpoint-Nutzung

Ich möchte die MPI-Checkpoint-Funktion nutzen, um meine Arbeit zu speichern. Nach dem Vorschlag anMPI-Checkpoint-Nutzung

Ich sollte SIGUSR1 an mpiexec senden (in meinem Fall, ich sende es an mpirun), um einen Prüfpunkt auszulösen. siehe Allerdings, wenn ich tun, damit ich nicht jede Datei in meinem Kontrollpunkt Verzeichnis gespeichert, das ich mit -ckpoint-Präfix angegeben

Hier ist meine mpirun -info Ausgang HYDRA build details: Version: 4.1 Update 1 Release Date: 20130522 Process Manager: pmi Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs Checkpointing libraries available: blcr Demux engines available: poll select

Meine Befehlszeile ist:

mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp

Die Art, wie ich sende, ist kill -s USR1 1900, 1900 ist die PID von miprun. Immer wenn ich das Signal sende, endet das Programm einfach. Kein Unfall obwohl. Hat jemand Erfahrung am MPI-Checkpoint?

Quelle

2016-04-04 user2494308

Ich denke, ich habe es herausgefunden. Ich sende USR1 nach mpirun, aber ich sollte es stattdessen an mpiexec.hydra senden. Auch wenn einige Online-Artikel sagen, mpirun und mpiexec sind das gleiche.

Quelle

2016-04-04 03:15:25 user2494308

Antwort

Verwandte Themen