2016-03-29 14 views
0

Ich trainierte mein Netzwerk mit einigen Konfigurationen und speicherte dann einen Schnappschuss davon.
Jetzt versuche ich aus dem letzten Snapshot fortzusetzen und es schlägt mit dieser Fehlermeldung:Caffe: Fortsetzen von einem trainierten Snapshot schlägt mit einem Fehler

I0328 13:44:30.756110 24238 net.cpp:283] Network initialization done. 
I0328 13:44:30.756206 24238 solver.cpp:60] Solver scaffolding done. 
I0328 13:44:30.757062 24238 caffe.cpp:209] Resuming from /media/hossein/tmpstore/caffe_new/examples/cifar10/cifar10_full_relu_bn_iter_60000.caffemodel.h5 
HDF5-DIAG: Error detected in HDF5 (1.8.15-patch1) thread 0: 
    #000: H5D.c line 358 in H5Dopen2(): not found 
    major: Dataset 
    minor: Object not found 
    #001: H5Gloc.c line 430 in H5G_loc_find(): can't find object 
    major: Symbol table 
    minor: Object not found 
    #002: H5Gtraverse.c line 861 in H5G_traverse(): internal path traversal failed 
    major: Symbol table 
    minor: Object not found 
    #003: H5Gtraverse.c line 641 in H5G_traverse_real(): traversal operator failed 
    major: Symbol table 
    minor: Callback failed 
    #004: H5Gloc.c line 385 in H5G_loc_find_cb(): object 'iter' doesn't exist 
    major: Symbol table 
    minor: Object not found 
F0328 13:44:30.786376 24238 hdf5.cpp:153] Check failed: status >= 0 (-1 vs. 0) Failed to load int dataset with name iter 
*** Check failure stack trace: *** 
    @  0x7f2d6e635daa (unknown) 
    @  0x7f2d6e635ce4 (unknown) 
    @  0x7f2d6e6356e6 (unknown) 
    @  0x7f2d6e638687 (unknown) 
    @  0x7f2d6ed74acd caffe::hdf5_load_int() 
    @  0x7f2d6ed678d0 caffe::SGDSolver<>::RestoreSolverStateFromHDF5() 
    @  0x7f2d6ed4bf19 caffe::Solver<>::Restore() 
    @   0x408038 train() 
    @   0x405a0c main 
    @  0x7f2d6d943ec5 (unknown) 
    @   0x406141 (unknown) 
    @    (nil) (unknown) 
Aborted (core dumped) 

Dies ist, wie ich versuche es wieder aufnehmen:

#!/usr/bin/env sh 

TOOLS=./build/tools 

$TOOLS/caffe train \ 
    --solver=examples/cifar10/cifar10_full_solver_bn_lr2.prototxt \ 
    --snapshot=/media/hossein/tmpstore/caffe_new/examples/cifar10/cifar10_full_relu_bn_iter_60000.caffemodel.h5 

gab ich dann, und ich versuchte BINARYPROTO statt HDF5 zu verwenden, aber ich bekomme diese Fehlermeldung:

I0328 16:35:34.721277 27243 net.cpp:283] Network initialization done. 
I0328 16:35:34.721369 27243 solver.cpp:60] Solver scaffolding done. 
I0328 16:35:34.722338 27243 caffe.cpp:209] Resuming from /media/hossein/tmpstore/caffe_new/examples/cifar10_full_relu_bn_iter_60000.caffemodel 
F0328 16:35:39.143900 27243 sgd_solver.cpp:316] Check failed: state.history_size() == history_.size() (0 vs. 28) Incorrect length of history blobs. 

*** Check failure stack trace: *** 

    @  0x7fd1c2cbbdaa (unknown) 
    @  0x7fd1c2cbbce4 (unknown) 
    @  0x7fd1c2cbb6e6 (unknown) 
    @  0x7fd1c2cbe687 (unknown) 
    @  0x7fd1c33ef097 caffe::SGDSolver<>::RestoreSolverStateFromBinaryProto() 
    @  0x7fd1c33d1ed3 caffe::Solver<>::Restore() 

    @   0x408038 train() 
    @   0x405a0c 
main 
    @  0x7fd1c1fc9ec5 (unknown) 

    @   0x406141 (unknown) 
    @    (nil) (unknown) 
Aborted (core dumped) 

als ich versuchte, verschiedene Zeiten mit differe nt Modelle, der Verlauf Teil ändert sich (wie 58 vs 28, 32 vs 28 zum Beispiel und so ist der über alle Fehler der gleiche, die Anzahl unterscheidet sich aber!)

Was soll ich tun? Das macht mich verrückt!

+0

in Bezug auf das Format hdf5: Ich hatte das gleiche Problem. Ich bin zurück zu binärproto gegangen. Ich denke, es gibt noch etwas zu tun, um export/import hdf5 Gewichte – Shai

+0

Was ist mit dem zweiten Teil, der das binaryproto Format betrifft? Ich kann es nicht herausfinden: -/ – Breeze

+0

Entschuldigung, dis stolpere nicht über diese ... – Shai

Antwort

3

Als Wert für das Argument --snapshot müssen Sie die Datei .solverstate.h5 übergeben, nicht die Datei .caffemodel.h5.