2016-06-25 9 views
0

Gibt es eine Möglichkeit, mehrere unabhängige Aggregationsaufträge parallel auf einer einzigen RDD auszuführen? Erste Präferenz ist Python dann Scala und Java.Ist es möglich, mehrere Aggregationsjobs in einem einzelnen Datenframe parallel in Spark auszuführen?

Der Verlauf der Aktionen in der Reihenfolge ihrer Präferenz sind -

  1. Mit Thread - laufen verschiedene Funktionen tun verschiedene Aggregationen auf verschiedenen Threads. Ich habe kein Beispiel gesehen, das dies tut.

  2. Verwenden Sie Cluster-Modus auf Garn, verschiedene Gläser einreichen. Ist das möglich, wenn ja dann ist es in Pyspark möglich?

  3. Verwenden Sie Kafka - führen Sie verschiedene Spark-Submits auf dem Datenstrom durch, der durch kafka streamt.

Ich bin ganz neu funken, und meine Erfahrung reicht Funken auf Yarn für ETL tun mehrere Aggregationen seriell auf ausgeführt wird. Ich habe darüber nachgedacht, ob es möglich ist, diese Aggregationen parallel zu betreiben, da sie größtenteils unabhängig sind.

Antwort

0

Ihre große Frage prüfen, ist hier eine breite Antwort:

Ja, ist es möglich, mehrere Aggregations Jobs auf einem einzigen Datenrahmen parallel laufen zu lassen.

Für den Rest scheint es nicht klar zu sein, was Sie fragen.

+1

Danke! Könnten Sie bitte angeben, wie das geht? Ich habe versucht, nach dem gleichen zu suchen, bin aber auf ziemlich vage Antworten gestoßen. Es tut mir leid, dass ich nicht klar darüber bin, was ich verlange. –

+0

Es tut mir leid. Ich kann nicht mehr ausarbeiten. Es ist ziemlich breit. Spark ist eine parallele Datenverarbeitungsmaschine. Ich kann auf eine so umfassende Frage keine spezifische Antwort geben. Bitte lesen Sie weiter, wie Sie eine Frage zu StackOverflow stellen können. Dies könnte Ihnen helfen, Ihre Frage zu überprüfen. – eliasah

+0

@preitamojha http://stackoverflow.com/q/38048068/1560062 – zero323