Ich muss gemeinsame Muster in einer Datenbank von Sequenzen von Ereignissen finden. Also habe ich the longest common substring problem und the python implementation auf der Suche nach einer Lösung betrachtet.Gemeinsame Muster in einer Datenbank
Beachten Sie, dass ich nicht nur nach dem längsten gemeinsamen Teilstring suche: Ich akzeptiere kürzere häufige Teilstrings, die häufig in der Datenbank vorkommen.
Können Sie einen Algorithmus, Implementierungstricks oder allgemeinen Rat zu diesem Problem vorschlagen?
Der mit mir zusammen arbeitende Maschinenbauingenieur sucht nach Daten, die während mehr als 20 Jahren erstellt wurden (ca. 8 GB und 5 Mio. Datensätze). Das letzte Ziel besteht darin, einen Berater für Wartungsaufgaben zu erstellen (etwa "Im aktuellen Zustand dieses Trucks müssen Sie diese Aufgaben erledigen"). Also, ja, ich habe den Apriori-Algorithmus in Betracht gezogen und einige interessante Assoziationen zwischen Ereignissen gefunden. Unser aktuelles Problem ist, ein anderes Modell zu finden, nur zum Vergleich. Mein Ansatzpunkt für die Verwendung einer Methode wie LCS ist, dass ich nur zwei Geschichten verarbeiten muss, um Muster zu finden. –