6

Wie kann ich automatisch Python-Bibliotheken in meinem Dataproc-Cluster installieren, wenn der Cluster startet? Dies würde mir die Mühe ersparen, mich manuell bei den Master- und/oder Arbeiterknoten anzumelden, um die Bibliotheken, die ich brauche, manuell zu installieren.Wie installiere ich Python-Bibliotheken automatisch beim Start des Dataproc-Clusters?

Es wäre großartig, auch zu wissen, ob diese automatisierte Installation Dinge installieren könnte nur auf dem Master und nicht die Arbeiter.

Antwort

6

Initialisierungsaktionen sind der beste Weg, dies zu tun. Initialisierungsaktionen sind Shell-Skripts, die beim Erstellen des Clusters ausgeführt werden. Dadurch können Sie den Cluster anpassen, z. B. Python-Bibliotheken installieren. Diese Skripts müssen in Google Cloud Storage gespeichert werden und können beim Erstellen von Clustern über das Google Cloud SDK oder die Google Developers Console verwendet werden.

Hier ist eine Beispielinitialisierungsaktion zum Installieren des Python pandas auf Cluster-Erstellung nur auf dem Master-Knoten.

#!/bin/sh 
ROLE=$(/usr/share/google/get_metadata_value attributes/role) 
if [[ "${ROLE}" == 'Master' ]]; then 
    apt-get install python-pandas -y 
fi 

Wie Sie von diesem Skript sehen können, ist es möglich, die Rolle eines Knotens mit /usr/share/google/get_metadata_value attributes/role und führen Maßnahmen, die speziell auf den Master (oder Arbeiter) Knoten zu erkennen.

Sie können die Google Cloud Dataproc Documentation für weitere Details sehen

+0

Dataproc Dokumentation ein bisschen veraltet ist. Sie müssen '' '/ usr/share/google/get_metadata_value attributes/dataproc-role''' ausführen, um die Zeichenfolge" Master "zu erhalten. Command '' '/ usr/share/google/get_metadata_value Attribute /' '' gibt eine Liste der verfügbaren Attribute. – dzejdzej