2009-05-25 2 views
2

Ich arbeite an einer Datenverteilungsanwendung, die Daten von einer Quelle empfängt und diese Daten an mehrere Zielanwendungen verteilt. Nach der erfolgreichen Verteilung von mehreren Nachrichten jede Sekunde für 8 Tage, verpasste es eine einzelne Nachricht und lieferte sie nicht ordnungsgemäß an die Clients.Data Mining-Protokolle zum Lokalisieren eines Fehlers

Als ich die Protokolle anschaute, versuchte ich etwas zu finden, das speziell für die Zeit war, als der Fehler passierte - entweder in den Daten, der Rate oder einem anderen Zustand, aber konnte nichts finden.

Gibt es eine Data Mining-Technik, mit der ich feststellen kann, wie sich dieses spezifische Ereignis von anderen Ereignissen unterscheidet?

+0

Wenn Ihr Messaging-System keinen garantierten Transport verwendet, riskieren Sie nicht, Nachrichten zu verlieren? –

+0

Es läuft auf TCP, so dass der Transport garantiert ist. Es gibt ein bisschen Logik, die beeinflusst, ob eine Nachricht verteilt wird oder nicht und das ist wahrscheinlich das Problem. Meine Frage könnte jedoch von allgemeinem Interesse sein. – gooli

Antwort

2

Sie können sich outlier detection ansehen. Eine grundlegende Technik besteht darin, mehrere Variablen für viele Nachrichten zu zeichnen und zu sehen, ob diese Nachricht buchstäblich herausragt. Eine Möglichkeit, mehr als zwei Dimensionen gleichzeitig zu visualisieren, ist parallel coordinates. Vielleicht sollten Sie sich auch, sagen wir, halbstündige Behälter ansehen, ihre Statistiken berechnen und sehen, ob es ein Problem mit dieser Nachricht gab.

0

Ich denke nicht, Data Mining ist das richtige Werkzeug hier.

Ich würde einige systematische Protokollierung hinzufügen (an Schnittstellen, schwer abzuleiten, interne Zustandsänderungen, und in Ihrem Fall, warum die Entscheidung zu verteilen oder nicht getroffen wurde) und versuchen, das Problem zu reproduzieren, dann herauszufinden, aus den Protokollen genau was ging schief. Obwohl es mit Millionen von Nachrichten und einem selten auftretenden Fehler wie diesem schwer sein könnte.

0

Es tut mir leid, ich sehe nicht, wie dies alles andere als ein Missverständnis darüber ist, was Data Mining ist.

Sie kennen bereits die beunruhigte Nachricht, und daher wissen Sie, dass es ein "Ausreißer" ist. Für was machst du "Bergbau"?