Ich bin neu in Hortonworks VM und ich wurde verwirrt. Ich versuche eine .jar-Datei auf Spark auszuführen. Normalerweise teste ich lokal auf Windows vonWie läuft .jar auf Spark auf Hortonworks VM?
spark-submit --driver-memory 4g --class en.name.ClassName %CODE%/target/program.jar
läuft, aber da ich Hive brauchen, ich dachte, dass ich auf eine Hortonworks VM bewegen würde lokal zu testen. Jetzt habe ich meine .jar und die Eingabedateien über Hortonworks Ambaris HDFS Files GUI in das HDFS (in das Verzeichnis /tmp/my_code
) hochgeladen. Was als nächstes? Ich habe auch die Befehlszeile gefunden, aber wie greife ich auf meine .jar auf dem HDFS von der VM-Befehlszeile aus? Ich versuche
spark-submit --driver-memory 4g --class en.name.ClassName /tmp/my_code/program.jar
aus der Sandbox kondolieren (die man auf http://127.0.0.1:4200/
standardmäßig [email protected]andbox
„Shell in a Box“ ausgeführt wird) ausgeführt werden, die nicht funktioniert. Es besagt, dass das .jar nicht existiert. Wie kann ich die VM darauf hinweisen, die .jar-Datei in HDFS zu verwenden? Vielen Dank!
Hmm. Okay, ich werde es versuchen. In diesem Fall wie gebe ich den Pfad zu den Dateien in Hadoop in meinem Code an? Also lese ich es wie 'DataFrame df = sqlContext.read(). Json ("? Pfad? ");', Was in '' Pfad? '? Wie lege ich fest, aus HDFS zu lesen? Setze ich einfach "hdfs: // tmp/my_data/*. Json"? –
Ja, Sie können 'hdfs: /' oder '/ tmp/my_data/*. Json' für die hdfs-Eingabedatei verwenden. Für die Verwendung der lokalen Eingabedatei müssen Sie 'file: /' angeben, aber ich denke, im Falle von hdfs-Dateien brauchen Sie nicht 'hdfs: /' im Pfad, aber es ist eine gute Übung, sie zu verwenden. –