2016-08-09 30 views
1

Kürzlich, Tensorflow hatte die Verteilung Trainingsmodul hinzufügen, was ist die Verteilung Vor-Anforderung? Ich meine die Umgebung wie dieser,verteilen Tensorflow-Demos

tensorflow >= 0.8 kubernates shared file system, gcloud? 

Und es hatte den Beispielcode freigeben:

Gibt es eine Möglichkeit tensorflow Cluster Beispiel auszuführen, wenn nur hdfs haben und ohne gemeinsam genutzte Dateisystem, wo zu modellieren Dateispeicher in?

+0

Ihre Frage lässt mich denken, Sie haben nicht einmal die sehr kurze [Beschreibung Seite] gelesen (https://www.tensorflow.org/versions/r0.10/how_tos/distributed/index.html) – Julius

Antwort

1

Jeder Computer muss Tensorflow installiert haben (und meiner Erfahrung nach sollten alle die gleiche Version sein. Ich hatte ein paar Probleme beim Mischen der Versionen 8 und 9). Sobald dies eingerichtet ist, benötigt jeder Computer Zugriff auf den Code, der ausgeführt werden soll (zum Beispiel main.py). Wir verwenden ein NFS, um dies zu teilen, aber Sie könnten genauso gut an jedem Computer ziehen, um die neueste Kopie Ihres Codes zu erhalten. Dann müssen Sie sie nur starten. Wir würden nur zu jeder Maschine in unserem grundlegendsten Setup ssh, aber wenn Sie einen Cluster wie Kubernates haben, dann kann es für Sie anders sein.

Wie für Checkpoints, ich glaube, nur der Chef Worker schreibt Checkpoint-Dateien, wenn das ist, was Ihre letzte Frage gefragt wurde.

Lassen Sie mich wissen, wenn Sie weitere Fragen haben.

+1

Wenn Sie brauchen Eine vollständige Demo, die sofort funktioniert, kann ich später in dieser Woche/Anfang nächster Woche auf der Dokumentationsseite hier bei SO veröffentlichen. –