Ich möchte die MPI-Checkpoint-Funktion nutzen, um meine Arbeit zu speichern. Nach dem Vorschlag anMPI-Checkpoint-Nutzung
Ich sollte SIGUSR1 an mpiexec senden (in meinem Fall, ich sende es an mpirun), um einen Prüfpunkt auszulösen. siehe Allerdings, wenn ich tun, damit ich nicht jede Datei in meinem Kontrollpunkt Verzeichnis gespeichert, das ich mit -ckpoint-Präfix angegeben
Hier ist meine mpirun -info Ausgang HYDRA build details: Version: 4.1 Update 1 Release Date: 20130522 Process Manager: pmi Bootstrap servers available: ssh rsh fork slurm srun ll llspawn.stdio lsf blaunch sge qrsh persist jmi Resource management kernels available: slurm srun ll llspawn.stdio lsf blaunch sge qrsh pbs Checkpointing libraries available: blcr Demux engines available: poll select
Meine Befehlszeile ist:
mpirun -ckpointlib blcr -ckpoint-prefix /home/user/temp/ckpoint -ckpoint-interval 1800 -np 274 $PROGPATH/myapp
Die Art, wie ich sende, ist kill -s USR1 1900
, 1900 ist die PID von miprun. Immer wenn ich das Signal sende, endet das Programm einfach. Kein Unfall obwohl. Hat jemand Erfahrung am MPI-Checkpoint?