Ich habe ein Fenster in Spark Streaming mit 5 ganzzahligen Werten erstellt. Jedes Mal, wenn eine Sekunde verstrichen ist, erhält das Fenster einen neuen Wert und verliert den ältesten. Jedes Mal, wenn ein neuer Wert kommt, berechne ich den Durchschnitt der Werte im Fenster wie folgt aus:Vergleiche neuen Wert mit dem vorherigen Durchschnitt in Spark Streaming
JavaDStream<Integer> average = values.map(new Function<Integer, Integer>() {
@Override
public Integer call(Integer a) throws Exception {
int b = a/5;
return b;
} });
So ist die durchschnittliche Veränderung hält.
Das Problem ist, jedes Mal, wenn ein neuer Wert zum Fenster kommt, möchte ich es mit dem vorherigen Durchschnitt vergleichen. Wenn dieser neue Wert viel größer oder kleiner als der Durchschnittswert ist, möchte ich ihn fallen lassen und den alten Durchschnitt beibehalten. Wenn nicht, kann die Durchschnitt aktualisiert werden.
Meine Frage ist, wie kann ich diesen 'alten Durchschnitt' speichern, damit ich ihn mit dem neuen Wert im Fenster vergleichen kann?
Vielen Dank.
Berechnung sind die durchschnittlichen basierend auf einem Schlüssel? Oder einfach einen Strom von eingehenden ganzen Zahlen verarbeiten? –
Eine Möglichkeit zum Speichern und Abrufen für einen Vergleich besteht darin, einen der verschiedenen Datenspeicher zu verwenden, die entweder mit Spark Streaming oder mit einem Spark-Connector integriert sind. Beispiele sind [SnappyData] (https://github.com/SnappyDataInc/snappydata), [Redis] (https://github.com/RedisLabs/spark-redis), [MemSQL] (https://github.com/). memsql/memsql-spark-connector), [Kassandra] (https://github.com/datastax/spark-cassandra-connector), [HBase] (https://github.com/nerdammer/spark-hbase-connector) – plambre
@YuvalItzchakov, es ist der zweite Fall genau, ich verarbeite einen Strom von ganzen Zahlen (5 ankommen pro Sekunde) und mit 'map' Methoden, um den Mittelwert dieser ganzen Zahlen zu berechnen –