2014-10-02 12 views
19

Ich habe eine einfache Linie:eine einfache Linie Zeichenfolge RDD in Spark-

line = "Hello, world" 

Ich mag würde es zu einer RDD konvertieren mit nur einem Element. Ich habe

versucht
sc.parallelize(line) 

Aber es bekommen:

sc.parallelize(line).collect() 
['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd'] 

Irgendwelche Ideen?

Antwort

22

versuchen Liste als Parameter verwendet wird.

sc.parallelize(List(line)).collect() 

es

res1: Array[String] = Array(hello,world) 
+5

Eigentlich gibt, sc.parallelize ([line]) unter Verwendung sammeln() gearbeitet. – poiuytrez

+0

in meiner Umgebung (scala 2.10.3 spark-1.0.0) sc.parallelize ([line]). Collect() funktioniert nicht – michaeltang

+0

Ich habe vergessen anzugeben, dass ich die Python-API verwende. – poiuytrez