pySpark: ist es möglich, Group() mit einem einzigen Knoten pro Gruppe zu gruppieren?

Ich verwende pySpark, um pro-Gruppe Matrizen zu berechnen. Es sieht so aus, als wäre die Berechnung schneller, wenn Spark die Zeilen einer bestimmten Gruppe auf einem einzelnen Knoten speichert, so dass Spark jede Matrix lokal berechnen könnte. Ich fürchte, die Kooperation zwischen den Knoten könnte viel länger dauern.pySpark: ist es möglich, Group() mit einem einzigen Knoten pro Gruppe zu gruppieren?

Sie map() und groupBy() in der Regel diese Art der Sache erreichen? Sollte ich versuchen, es als Option anzugeben, wenn möglich?

NB. Die Matrizen enthalten das Berechnen einer Entfernung zwischen jeder Reihe und der vorhergehenden innerhalb jeder (sortierten) Gruppe.

Quelle

2016-06-10 Pinimo

Es scheint, Spark, dass standardmäßig zu tun.

Siehe hier: http://backtobazics.com/big-data/spark/apache-spark-groupby-example/

Quelle

2016-06-10 15:29:12 Pinimo

Ich denke, Sie für mapPartitions() gefragt. Dann geschieht die Operation lokal in jeder Partition.

Quelle

2016-06-10 15:46:19 piggybox

pySpark: ist es möglich, Group() mit einem einzigen Knoten pro Gruppe zu gruppieren?

Antwort

Verwandte Themen