2

Ich verwende Multi-Variate-Guassian-Verteilung, um Anomalie zu analysieren. Dies ist, wie der Trainingssatz siehtWie sollte Nullstandardabweichung in einer der Funktionen in Multi-Variate-Gauß-Verteilung behandelt werden

19-04-16 05:30:31 1 0 0 377816 305172 5567044 0 0 0 14 62 75 0 0 100 0 0 
<Date>  <time>  <--------------------------- ------- Features ---------------------------> 

kann sagen, eine der oben genannten Funktionen nicht ändern, bleiben sie Null.

Berechnung Mittelwert = mu

mu = mean(X)' 

Berechnung sigma2 als

sigma2 = ((1/m) * (sum((X - mu') .^ 2)))' 

Probability einzelnen Merkmal in jedem Datensatz wird berechnet unter Verwendung von Standard Gaußschen Formel

guassian

Für ein besonderes Merkmal, wenn a lle Werte sind null, dann ist auch der Mittelwert (mu) gleich Null. Anschließend wird Sigma2 auch Null sein. Dadurch, wenn ich die Wahrscheinlichkeit durch Gaußverteilung berechne, würde ich ein "Gerät durch Null" Problem bekommen.

In Test-Sets kann dieser Merkmalswert jedoch schwanken und ich würde das als eine Anomalie bezeichnen. Wie, sollte das gehandhabt werden? Ich möchte eine solche Funktion nicht ignorieren.

Antwort

1

Also - das Problem tritt jedes Mal auf, wenn Sie eine Variable haben, die konstant ist. Aber es ist absolut sinnlos, sie durch eine Normalverteilung zu approximieren. Die ganze Information über eine solche Variable ist in nur einem Wert enthalten - und dies ist eine Intuition, warum diese Division durch 0 auftritt.

Wenn Sie wissen, dass diese Schwankungen in Ihrer Variablen nicht in einem Trainingssatz beobachtet werden, können Sie einfach eine Varianz dieser Variablen auf einen bestimmten Wert einstellen. Sie könnten eine Funktion max(variance(X), eps) anstelle einer klassischen Varianzdefinition anwenden. Dann - Sie werden sicher sein, dass keine Division durch 0 auftritt.

+0

Danke für die Eingaben. Ich werde versuchen, über die Ergebnisse zu aktualisieren. –

+0

Und? Hat meine Antwort Ihnen geholfen? –

+0

Nochmals vielen Dank für den Vorschlag. Bitte entschuldigen Sie die verspätete Antwort. Ja, es funktioniert. Und was ich von Ihrem Vorschlag verstehe, ist (bitte bestätigen Sie), dass wir versuchen, eine kleine "Varianz" in dieses Merkmal einzubauen (was ich wahrscheinlich hinzufügen würde, wenn der Mittelwert/Standard Null ist), so dass die kleinste Abweichung von Dieser Wert (eps) könnte als Anomalie bezeichnet werden. EPS wäre (wie per Definition) der Abstand zwischen zwei benachbarten Zahlen im Gleitkomma-System der "Maschine". Ich denke, das sollte den Trick bringen. :-) –