2016-06-15 33 views
0

Wenn ich 3 mehrdimensionale Daten:Kann ich Geometrisches Mittel verwenden, um mehrdimensionale Daten zur Erkennung von Ausreißern darzustellen?

Data 1: (22, 80, 9) 

Data 2: (23, 78, 10) 

Data 3: (21, 81, 11) 

ich diese 3 Daten Mittelwert und Standardabweichung berechnet werden soll, weil ich Ausreißer durch 3-Sigma-Regel erkannt werden soll.

Kann ich einfach das geometrische Mittel berechnen, um Data1, Data2 und Data3 darzustellen?


Zum Beispiel:

Data 1: (22,80,9) -> Data 1: (25.11414) 


Data 2: (23,78,10) -> Data 2: (26.17826) 


Data 3: (21,81,11) -> Data 3: (26.54803) 

Nachdem ich die multidimensionalen Daten zu eindimensionalen Daten abzubilden, dann kann ich leicht Varianz und Standardabweichung erhalten.

Das obige ist meine Argumentation, aber ich bin mir nicht sicher, ob es sinnvoll ist oder nicht.

Könnte jemand antworten Sie mir, oder jemand jemals das Papier zu diesem Thema

Sehr Dank angesprochen gesehen!

+0

Wenn Sie die Mittelwerte jeder Daten zu einem einzelnen Vektor zuordnen und dann die SD oder Var, dann erhalten Sie nicht die gesamten Daten sd und Varianz, sondern nur die SD und Varianz des neuen Vektors. – akash87

Antwort

0

Um „3-Sigma-Regel“ verwenden Ich gehe davon aus, dass jede Dimension des Datensatzes (im Sinne, dass es im Einklang Bedeutung über Datenabtastwerte hat) festgelegt ist, also:

Data 1: (22, 80, 9) 
Data 2: (23, 78, 10) 
Data 3: (21, 81, 11) 
     ^^^
      | | | 
    some 1st feature| 
       | | 
     second feature 
        | 
      third feature 

Sie benötigen Feature weise stds zu schätzen, so

std1 = std(22, 23, 21) 
std2 = std(80, 78, 81) 
std3 = std(9, 10, 11) 

mu1 = mean(22, 23, 21) 
mu2 = mean(80, 78, 81) 
mu3 = mean(9, 10, 11) 

jetzt, wenn Sie einen neuen Datenpunkt haben (x1, x2, x3) Sie davon ausgehen, dass es ein Ausreißer iff mindestens eine der folgenden Ergebnisse hält

  • x1 nicht zu [mu1 - 3*std1, mu1 + 3*std1]
  • geschieht gehört
  • x2 gehört nicht zu [mu2 - 3*std2, mu2 + 3*std2]
  • gehört nicht zu [mu3 - 3*std3, mu3 + 3*std3]

Effizient, was ist, dass Sie davon ausgehen, dass Ihre Daten ein univariate hat Normalverteilung Feature-weise und Features sind bedingt unabhängig, und Sie weisen einfach Punkte mit einer Wahrscheinlichkeit von weniger als ~ 99,7%.

Es gibt nirgends ein "geometrisches Mittel".