Ich möchte viele Dateien für ein maschinelles Lernprojekt herunterladen. Diese Downloads dauern ziemlich lange und ich möchte sie beschleunigen.Gibt es eine Möglichkeit, einen verteilten Dateidownload über einen Hadoop-Cluster durchzuführen?
Ich habe einen Hadoop-Cluster, und ich dachte, dass ich davon profitieren könnte, um schnellere Downloads zu erhalten. Gibt es trotzdem den Datei-Download über den Cluster zu verteilen, um die Geschwindigkeit zu verbessern?
Ich werde das untersuchen. Ich kenne MapReduce jedoch nicht. Ich habe in Spark geschrieben. Gibt es einen ähnlichen Weg, dies in Spark zu tun? –
Konvertieren Sie die obige Metadaten-Datei in eine RDD und führen Sie den Download-Service in den Executoren aus. –