2016-05-31 9 views
3

Wir planen, unsere Sensor-Zeitreihendaten unter cassandra zu speichern und spark/spark-ts zu verwenden, um darauf Maschinenalgorithmen anzuwenden.Regulieren Sie ungleichmäßige Zeitreihen mit Spark-ts

Anders als in der Dokumentation sind unsere Zeitreihendaten unregelmäßig - unevenly spaced time series - da die Sensoren die Daten ereignisbasiert senden.

Die meisten Algorithmen und Modelle erfordern jedoch regelmäßige Zeitreihen.

  • Bieten spark-ts jede Funktion, um die unregelmäßigen Zeitreihen zu Stammkunden zu verwandeln (mit Interpolation oder zeitlich gewichtete Durchschnitt, etc.)?

  • Wenn nicht, was wäre ein empfohlener Ansatz, um dieses Problem zu lösen?

Antwort

0

spark-ts bietet keine Funktion, um unregelmäßige Zeitreihen in reguläre umzuwandeln.

Wie Sie mit unregelmäßigen Zeitreihen umgehen, hängt von den Zielen ab, die Sie durch Ihre Analyse erzielen möchten. Anwendungsfälle für Zeitreihen umfassen Vorhersage/Prognose, Anomalieerkennung oder versuchen, vergangenes Verhalten zu verstehen/zu analysieren.

Wenn Sie die in spark-ts verfügbaren Algorithmen verwenden möchten (im Gegensatz zur Modellierung Ihrer Daten durch andere statistische Prozesse für Ereignisströme), besteht eine Möglichkeit darin, die Zeitachse in Bins gleicher Größe zu unterteilen und dann zu berechnen eine Zusammenfassung Ihrer Daten in jedem Fach (z. B. die Summe, der Mittelwert usw.). Wenn Sie Ihre Bins immer feinkörniger gestalten, werden die durch das Quantisieren der Zeitdimension verlorenen Informationen minimiert, aber Ihre Daten sind möglicherweise schwerer zu modellieren (daher bestimmt die Bins-Größe den Kompromiss). Die gruppierten Daten bilden dann eine gleichmäßig verteilte Zeitreihe, die Sie mit typischen Zeitreihentechniken analysieren können.