Angenommen, ich habe eine Liste von Ereignissen. Zum Beispiel A, D, T, H, U, A, B, F, H, ...
.Muster in kontinuierlichen Sequenzdaten
Was ich brauche ist, häufige Muster zu finden, die in der vollständigen Sequenz auftreten. In diesem Problem können wir keine traditionellen Algorithmen wie a priori oder fp growth verwenden, da sie separate Elementmengen benötigen. Und ich kann diesen Stream nicht in kleinere Sets aufteilen.
Jede Idee, welcher Algorithmus würde für mich arbeiten?
EDIT
Zum Beispiel für die Sequenz A, D, T, H, U, A, D, T, H, T, H, U, A, H, T, H
und mit min_support = 2
.
Die häufigen Muster wird
Of length 1 --> [A, D, T, H, U]
Of length 2 --> [AD, DT, TH, HU, UA, HT]
Of length 3 --> [ADT, DTH, THU, HUA]
Of length 4 --> [ADTH, THUA]
No sequences of length 5 and further
Ich denke, die Frage ist viel zu weit gefasst, aber als erste Vermutung möchten Sie vielleicht einen Blick auf [iSAX] (http://www.cs.ucr.edu/~eamonn/iSAX/iSAX.html) werfen) – Marco13
Ich möchte nur häufige Muster aller Längen in diesem einen großen Strom finden.Nach langem Suchen konnte ich nichts im Internet finden. – Haris
["String" -Komprimierung] (https://en.wikipedia.org/wiki/Lossless_compression#General_purpose) Algorithmen versuchen, (zumindest lokal) vorhersehbare Ungleichförmigkeit in der Sequenzwahrscheinlichkeit zu nutzen. – greybeard