Ich habe ein Daten-Pipeline-System, wo alle Ereignisse in Apache Kafka gespeichert sind. Es gibt einen Event-Processing-Layer, der diese Daten (Zeitreihen) konsumiert und transformiert und dann den resultierenden Datensatz in Apache Cassandra speichert.K-Means auf Zeitreihendaten mit Apache Spark
Jetzt möchte ich Apache Spark verwenden, um einige maschinelle Lernmodelle für die Erkennung von Anomalien zu trainieren. Die Idee besteht darin, den k-Means-Algorithmus für die vergangenen Daten beispielsweise für jede einzelne Stunde an einem Tag auszuführen.
Zum Beispiel kann ich alle Ereignisse von 4 pm bis 5pm auswählen und ein Modell für dieses Intervall erstellen. Wenn ich diesen Ansatz anwende, erhalte ich genau 24 Modelle (Schwerpunkte für jede einzelne Stunde).
Wenn der Algorithmus gut funktioniert, kann ich die Größe meines Intervalls auf beispielsweise 5 Minuten reduzieren.
Ist es ein guter Ansatz, Anomalie-Erkennung bei Zeitreihendaten durchzuführen?