Ich habe zwei Dateien in HDFS mit der gleichen Anzahl von Zeilen. Zeilen aus den Dateien entsprechen einander nach Zeilennummer.zip RDDs aus verschiedenen Eingabedateien
lines1=sc.textFile('1.txt')
lines2=sc.textFile('2.txt')
Meine Frage ist, wie rdd Zeilen1 mit Zeilen2 korrekt zip?
zipped=lines1.zip(lines2)
Zip erfordert die gleiche Größe RDDs und die gleichen Partitionen (wie ich nicht nur Partitionen verstanden zählen, sondern auch die gleiche Anzahl von Elementen in jeder Partition). Erste Voraussetzung ist bereits erfüllt. Wie gewährleistet man die zweite?
Danke!
Sergey.
zero323 - die Idee ist klar. Vielen Dank! Warum verwenden Sie auch das Sortieren? – sergun
Weil ich 'HashPartitioner' nicht auf' Join' verwenden möchte. – zero323