Ich weiß, dass wir (wie cbind in R) zwei RDDs wie unten in pyspark kombinieren:Wie zwei Dstreams kombinieren Pyspark (ähnlich .zip auf normalen RDD) mit
rdd3 = rdd1.zip(rdd2)
Ich möchte führen die Gleiches für zwei Dstreams in Pyspark. Ist es möglich oder Alternativen?
In der Tat verwende ich ein MLlib-Randomforest-Modell, um mithilfe von Spark-Streaming zu prognostizieren. Am Ende möchte ich das Merkmal Dstream & Vorhersage Dstream für weitere Downstream-Verarbeitung kombinieren.
Vielen Dank im Voraus.
-Obaid