Ich bin über die glom()
Methode auf RDD gestoßen. Gemäß der DokumentationWas ist ein Glom ?. Wie unterscheidet es sich von mapPartitions?
Return ein RDD erstellt, indem alle Elemente innerhalb jeder Partition in ein Array koaleszierende
Hat glom
die Daten über die Partitionen mische oder ist es nur die Partitionsdaten als ein Array zurückgeben? Im letzteren Fall, glaube ich, dass die gleichen mapPartitions
Verwendung erreicht werden kann.
Ich würde auch gerne wissen, ob es irgendwelche Anwendungsfälle gibt, die von glom
profitieren.
@ Zero323 auf eine nette Art und Weise erklärt ... wollte imp hinzufügen. tip d. h. 'glom' ist nützlich, wenn RDD-Operationen mit Matrixbibliotheken implementiert werden sollen, die für Arrays optimiert sind. –