Ich habe ein Apache Spark-Skript, das auf der Google Compute Engine ausgeführt wird und für die Ausgabe eines Google Cloud Storage sorgt. Ich habe mehr als 300 Teile-00XXX-Dateien in meinem Cloud Storage-Ordner. Ich möchte sie zusammenführen.Zusammenführen von mehr als 32 Dateien in Google Cloud Storage
Ich habe versucht:
[email protected]:~$ gsutil compose gs://mybucket/data/* gs://mybucket/myfile.csv
Aber ich habe diesen Fehler:
CommandException: "compose" called with too many component objects. Limit is 32.
Irgendwelche Ideen von einer Lösung, die alle Thesen Teildateien zu fusionieren?
Partitionieren Sie Ihre Dateien in Chunks mit 32 Dateien darin. Verschmelze jeden einzeln. Wenn Sie mit N-Dateien begonnen haben, werden Sie jetzt N/32-Dateien haben. wiederholen. Wenn Sie genug Speicher haben, können Sie es mit Unterbefehlszeilen machen und müssen nicht jedes Mal auf die Platte schreiben/lesen –