Ich verwende pySpark, um pro-Gruppe Matrizen zu berechnen. Es sieht so aus, als wäre die Berechnung schneller, wenn Spark die Zeilen einer bestimmten Gruppe auf einem einzelnen Knoten speichert, so dass Spark jede Matrix lokal berechnen könnte. Ich fürchte, die Kooperation zwischen den Knoten könnte viel länger dauern.pySpark: ist es möglich, Group() mit einem einzigen Knoten pro Gruppe zu gruppieren?
Sie map()
und groupBy()
in der Regel diese Art der Sache erreichen? Sollte ich versuchen, es als Option anzugeben, wenn möglich?
NB. Die Matrizen enthalten das Berechnen einer Entfernung zwischen jeder Reihe und der vorhergehenden innerhalb jeder (sortierten) Gruppe.