2015-09-24 4 views
8

Ich habe eine RDD, die ich durch Laden einer Textdatei und Vorverarbeitung erstellen. Ich möchte es nicht sammeln und auf der Festplatte oder im Speicher (ganze Daten) speichern, sondern es lieber an eine andere Funktion in Python weitergeben, die Daten nacheinander in Form von iterierbaren Daten konsumiert.RDD in iterable konvertieren: PySpark?

Wie ist das möglich?

data = sc.textFile('file.txt').map(lambda x: some_func(x)) 

an_iterable = data. ## what should I do here to make it give me one element at a time? 
def model1(an_iterable): 
for i in an_iterable: 
    do_that(i) 

model(an_iterable) 

Antwort