Kopieren und entpacken von S3 nach HDFS

Ich habe ein paar große Zip-Dateien auf S3. Jede dieser Zip-Dateien enthält mehrere gz-Dateien, die Daten im JSON-Format enthalten. Ich muss (i) die gz-Dateien nach HDFS kopieren und (ii) die Dateien vorzugsweise von Apache Spark/Impala/Hive verarbeiten. Was ist der einfachste Weg?Kopieren und entpacken von S3 nach HDFS

Quelle

2016-07-20 PTDS

1) Versuchen Sie distcp für Dateien von s3 auf HDFS Kopieren

2) Für die Verarbeitung verwenden "org.apache.spark.sql.hive.HiveContext" 's read.json JSON-Daten aus HDFS zum Lesen und Erstellen Datenrahmen. Dann machen Sie irgendeine Operation darauf.

Folgen Sie diesem Link, http://spark.apache.org/docs/latest/sql-programming-guide.html#creating-dataframes

Quelle

2016-07-20 06:36:32

Wie kann ich "entpacken" die ZIP-Dateien auf HDFS? Kann ich programmgesteuert mit Spark arbeiten? Wie? – PTDS

Antwort

Verwandte Themen