2016-03-29 8 views
1

Hallo Alles, ich bin neu zu funken .. Ich habe eine RDD Form (K1,K2,Row(val1)) (K1,K2,Row(val2)), wo K1 und K2 zusammen eine unique key machen. Ich möchte es auf K1 und K2 kombinieren.Kombinieren auf mehrere Tasten in Pyspark oder Spark

(K1,K2,Row(val1,val2)) kann jemand einen Weg durch vorschlagen Ich habe nach diesem gesucht, aber nichts nützliches bekommen.

danken Sie

+0

Welche Operation haben Sie auf diesen Schlüsseln basierend tun wollen? –

Antwort

1

Karte Ihre Daten in ein Format ((K1, K2), V) und es wie jedes andere PairRDD verwenden:

rdd 
    .map(lambda ksv: ((ksv[0], ksv[1]), ksv[2])) 
    .reduceByKey(...) # Or other method you want to use