Es gibt eine Reihe von Geschäftsentscheidungen, die Sie treffen müssen, bevor Sie einen normalen Algorithmus haben. Die erste und wichtigste Entscheidung ist die Größe des Sets. Wenn Sie {a, b, ... x}
haben ist die häufigste Menge, dann wird jede Teilmenge (wie {a, x}
oder {c, d, y}
wird mindestens mit der gleichen Häufigkeit sein).
Sie müssen wissen, welche Sie benötigen (möglicherweise alle oder alle). Was würden Sie auch tun, wenn diese Frequenzen {a, b}
mit der Frequenz 100 und {a, c, d, e, f, g}
mit der Frequenz 20 auftreten. Natürlich ist die erste häufiger, aber die zweite ist auch ziemlich häufig und sehr lang.
Eine Möglichkeit, dies zu erreichen, besteht darin, über alle 1 Elementuntersequenzen zu iterieren und deren Häufigkeit zu ermitteln. Dann alle 2 Elemente und so weiter. Dann erstellen Sie eine gewichtete Bewertung, die die Häufigkeit multipliziert mit einer Funktion basierend auf der Länge der Sequenz sein kann. Wählen Sie die höchste Punktzahl.
Was die Mustergrößen festgelegt werden? – Ryan
beliebiger Größe (2: N). Ich habe Millionen von Datenzeilen. – nezz