2016-03-18 4 views
2

Ich würde gerne wissen, ob es eine Möglichkeit gibt, die von zur Verfügung gestellte Funktion der Spark API RDD.toDebugString() zu einem strukturierteren Format zu verwenden, so dass es automatisch eine grafische Darstellung erhalten kann, zum Beispiel mit graphviz.Spark RDD Lineage Graph Darstellung

Es scheint, dass es eine Aktivität, um dies ist los: https://issues.apache.org/jira/browse/SPARK-1015

Aber ich mochte die Informationen von toDebugString() zu einem strukturierten Format bekommen, und später entscheiden, für die Darstellung, welches Grafikformat zu verwenden.

+0

, dass Problem nicht behoben werden. – eliasah

Antwort

1

toDebugString() iteriert intern durch die rekursive Struktur einer RDD und erstellt eine darstellbare Zeichenfolge.

Anstatt toDebugString() eine strukturiertere Ausgabe zurückzugeben, lesen Sie die innere Implementierung (die sich auf strukturierte Daten stützt), und ändern Sie sie, um die Daten so zu speichern, wie es für Sie geeignet ist.

Sie müssen den Funken UI nicht warten, für jede Frage auf JIRA, nur DIY :)

+0

Ich weiß nicht, Scala, wie kann ich das in Java tun? –

0

Eine detailliertere und formatiert sind, können visuelle Darstellung gesehen werden, der auf 4040-Anschluss standardmäßig ausgeführt. Hier der Screenshot alle Details zeigt:

enter image description here