Ich benutze aws .net SDK, um einen s3distcp-Job zu EMR zu führen, um alle Dateien in einem Ordner mit --groupBy arg zu verketten. Aber was auch immer "groupBy" arg Ich habe versucht, es fehlgeschlagen die ganze Zeit oder einfach kopieren Sie die Dateien ohne Verkettung wie wenn keine --groupBy in der Arg-Liste angegeben.Wie EMR S3DistCp groupBy richtig?
Die Dateien im Ordner ist Funken saveAsTextFiles wie unten genannt:
Teil 0000
Teil 0001
Teil 0002
...
...
step.HadoopJarStep = new HadoopJarStepConfig
{
Jar = "/usr/share/aws/emr/s3-dist-cp/lib/s3-dist-cp.jar",
Args = new List<string>
{
"--s3Endpoint=s3-eu-west-1.amazonaws.com",
"--src=s3://foo/spark/result/bar" ,
"--dest=s3://foo/spark/result-merged/bar",
"--groupBy=(part.*)",
"--targetSize=256"
}
};
Ich habe ein sehr ähnliches Problem zu dem, was Sie hatten, aber mein Ordner ist ein bisschen mehr verschachtelt..Können Sie sich bitte https://stackoverflow.com/questions/46833387/using-groupby-while-copying- von-hdfs-zu-s3-zu-merge-files-in-a-folder – Amistad