Normalerweise lese und schreibe ich Dateien in Spark mit .gz, wobei die Anzahl der Dateien der Anzahl der RDD-Partitionen entsprechen sollte. I.e. Eine .gz-Datei wird in eine einzelne Partition eingelesen. Wenn ich jedoch in einem einzelnen .bz2 lese, würde ich immer noch eine einzige riesige Partition bekommen? Oder unterstützt Spark automatisch die Aufteilung eines .bz2 auf mehrere Partitionen?Spark: Unterschied beim Einlesen von .gz und .bz2
Woher weiß ich auch, wie viele Partitionen es sein würde, während Hadoop es aus einer bz2-Datei einliest. Vielen Dank!