Ich versuche, Spark MLib auf einen großen Datensatz, den wir derzeit in einer Zeitreihen-Datenbank beibehalten haben. Nehmen wir an, wenn wir Daten A, B, C, D und E in unserer Zeitreihendatenbank haben, würde ich zuerst A, B, C laden und eine Transformation durchführen und dann die transformierten Daten in Spark MLib übergeben.Apache Spark RDD-Workflow
Ich habe ein paar Fragen in dieser Hinsicht. Gibt es einen Standard-Workflow, den ich berücksichtigen sollte? Ich meine das Laden, Transformieren von Daten scheint mir immer noch eine Frage zu sein. Dies ist nicht spezifisch für Spark. Ich würde gerne wissen, ob es einen Vorteil bringt, Frameworks wie Apache Camel für die ETL zu verwenden und dann die Ergebnisse an Spark zu füttern?
Irgendwelche Vorschläge?