2016-04-06 2 views
-2

Ich sehe viele Beispiele, die Array verwenden, um Eckpunkt zuerst zu erstellen, dann es parallelisieren, um es zu einem RDD zu machen, aber wenn ich riesige Daten habe, wie würde ich damit umgehen? Ich glaube nicht, dass ich ein Array von etwa 1 Million Ecken erstellen kann.Spark graphX: Wie man große Daten lädt, um ein Diagramm zu erstellen

Es gibt einen anderen Beitrag, Spark GraphX - How can I read from a JSON file in Spark and create a graph from the data?, auch vorgeschlagen, Array auch zu verwenden, korrigieren Sie mich, wenn ich falsch liege, aber wieder denke ich nicht, dass es funktionieren würde.

Vielen Dank im Voraus.

Antwort

0

Wenn Sie Daten in einer Datei, dann können Sie direkt rdd oben drauf schaffen:

val rdd : RDD[String] = sparkContext.textFile("/path/to/file") 

und Ihr es dann zu VertexRDD oder EdgeRDD verwandeln.