Ich habe 1 Master und 3 Slaves (4 Kerne)Welche Vorteile hat es, die Partitionsgröße zu erhöhen und die Anzahl der Partitionen im Funke zu verringern?
Standardmäßig ist die minimale Partitionsgröße in meinem Spark Cluster 32MB und meine Dateigröße ist 41 Gb. So versuche ich die Anzahl der Partitionen durch Ändern der minsize zu 64Mb
sc.hadoopConfiguration.setLong("mapreduce.input.fileinputformat.split.minsize", 64*1024*1024)
val data =sc.textFile("/home/ubuntu/BigDataSamples/Posts.xml",800)
data.partitions.size = 657
Also, was sind die Vorteile der Erhöhung der Partitionsgröße und die Verringerung der Anzahl der Partitionen zu reduzieren. Weil, wenn meine Partitionen um 1314 sind, dauerte es etwa 2-3 Minuten appx und selbst nach dem Reduzieren der Anzahl der Partitionen dauert es immer noch genauso viel Zeit.