Ich versuche, einen Schritt für Linux-Konsole zu erstellen: aws emr add-steps --cluster-id j-XXXXXXXXXX --steps Type=CUSTOM_JAR,Name="S3DistCp step",Jar=/home/hadoop/lib/emr-s3distcp-1.0.jar,\
Args=[
Ich versuche, einen "Schritt" zu erstellen und viele kleine Dateien in einem zu sammeln, so dass ich es für Tage trennen kann. Das Problem ist, dass ich intando laufen lasse und mich nicht lassen kann
Ich benutze aws .net SDK, um einen s3distcp-Job zu EMR zu führen, um alle Dateien in einem Ordner mit --groupBy arg zu verketten. Aber was auch immer "groupBy" arg Ich habe versucht, es fehlgeschlagen
Ich versuche, 193 GB Daten von s3 nach HDFS zu kopieren. Ich laufe die folgenden Befehle für s3-distcp und hadoop distcp: s3-dist-cp --src s3a://PathToFile/file1 --dest hdfs:///user/hadoop/S3CopiedFil
Ich würde Distcp verwenden, um eine Liste von Dateien (> 1K-Dateien) in hdfs zu kopieren. Ich habe bereits eine Liste von Dateien im lokalen Verzeichnis gespeichert. Kann ich jetzt -f verwenden, um al