Ich habe eine Parkett-Datei mit 100.000 Datensätze. Ich möchte alle Datensätze mit Parallelität verarbeiten und meine Verarbeitung wird weitere Spalten generieren. Also, wenn Ihr Parkett Datei 3 Spalten und 100.000 Datensätze hat, sieht meine Datei wie wie unten-Wie zu veröffentlichen einzelne Parkett-Datei nach der Verarbeitung in Spark
col A col B colC
aa bb cc
aa1 bb1 cc1
Nachdem in parallel verarbeitet zu werden, habe ich eine neue Parkett Datei mit gleichen Spalten und 3more Spalten möchten. Meine Ausgabe sieht wie folgt aus -
col A col B colC colD colE colF
aa bb cc dd ee ff
aa1 bb1 cc1 dd1 ee1 ff1
Ich möchte wissen -
- Nachdem parallel in Funken Knoten ausgeführt wird, wie kann ich alle Ergebnisse in 1 Parkett-Datei kombinieren?
- Wie kann ich mehr Spalten zu einer vorhandenen Datei hinzufügen?
Jede Hilfe wäre willkommen.
Wenn meine Eingabe eine Parkettdatei ist, möchte ich eine entsprechende Parkettdatei als Ausgabe mit neu hinzugefügten Spalten. Werden nicht so viele Parkettdateien geschrieben, erhöht sich der Speicherplatz? auch, wie kann ich meine eingabeparkettdatei parallel bearbeiten? – Neha
Mehr Dateien werden den Speicherplatz auf der Festplatte nicht wesentlich erhöhen, 10 Dateien von X zu haben ist ziemlich genau dasselbe wie eine Datei von 10X. Der einzige Unterschied zu vielen Dateien besteht darin, dass Sie etwas mehr Metadatenblöcke speichern müssen, aber meistens ist es im Vergleich zur Größe der tatsächlichen Daten vernachlässigbar. Spark behandelt Parallelität für Sie, schauen Sie sich nur ein paar Beispiele für die Arbeit mit Spark an. Spark teilt die Eingabedatei in eine Partition auf und verarbeitet sie auf einem separaten Executor. Je größer die eingegebene Datei ist, desto mehr Input-Splits haben Sie. –