Ich habe ein paar große Zip-Dateien auf S3. Jede dieser Zip-Dateien enthält mehrere gz-Dateien, die Daten im JSON-Format enthalten. Ich muss (i) die gz-Dateien nach HDFS kopieren und (ii) die Dateien vorzugsweise von Apache Spark/Impala/Hive verarbeiten. Was ist der einfachste Weg?Kopieren und entpacken von S3 nach HDFS
1
A
Antwort
0
1) Versuchen Sie distcp für Dateien von s3 auf HDFS Kopieren
2) Für die Verarbeitung verwenden "org.apache.spark.sql.hive.HiveContext
" 's read.json
JSON-Daten aus HDFS zum Lesen und Erstellen Datenrahmen. Dann machen Sie irgendeine Operation darauf.
Folgen Sie diesem Link, http://spark.apache.org/docs/latest/sql-programming-guide.html#creating-dataframes
Wie kann ich "entpacken" die ZIP-Dateien auf HDFS? Kann ich programmgesteuert mit Spark arbeiten? Wie? – PTDS