2016-07-27 30 views
0

Ich habe k-Means-Clustering in einem Dataset implementiert. Ich habe versucht, k von clustering zu analysieren, indem ich Parallel- und Abweichungsdiagramm in Rapid-Miner betrachtete.Cluster-Homogenität analysieren und Cluster-Distanz-Performance-Operator in RapidMiner verwenden

Ziel ist es, Homogenität von Clustern zu analysieren.Out von verschiedenen angegebenen Leistungsmodellen wird der Operator "Cluster Distance Performance" Operator auf Ergebnisse von k-Means Clustering verwendet.

  1. Gibt es andere Operatoren, die eine solche Analyse bereitstellen können?
  2. Der Datensatz, den ich habe, hat numerische Vektoren mit großen Werten (in Hunderte und Tausende), auch ich habe einen Datensatz, der extrem kleine Werte (bis zur 5.-8. Stelle der Dezimalstelle) haben.

Ich bin nicht sicher, wie die Ergebnisse zu interpretieren, dass ich von der Operator "Cluster Entfernung Performance" erhalten, wie unten

Centroid Tabelle Ergebnis

enter image description here

und Performance-Vektor-Operator gezeigt Ergebnis ist

enter image description here Kann mir bitte jemand dabei helfen? Obwohl ich lese, dass der Wert von Davies Bouldin umso besser ist, ist das Clustering.

Antwort

0

Wenn Sie versuchen, die "besten" Cluster zu finden, müssen Sie k variieren und verschiedene Clustervaliditätsmaße berechnen, um zu vergleichen, wie diese variieren, wenn k variiert. Davies-Bouldin ist oft ein schöner, weil das "Beste" durch ein Minimum signalisiert wird. Die Definition des Besten ist vom Standpunkt der mathematischen Technik, die verwendet wird, um das Validitätsmaß zu konstruieren (das auf gesunden und logischen Techniken basiert), aber eine Person muss immer auf das Clustering schauen, um zu entscheiden, ob das Ergebnis tatsächlich etwas bedeutet.

+0

Wenn Sie eine Anleitung zum Schreiben eines Prozesses benötigen, um alle möglichen Werte von k zu durchlaufen und ein Gültigkeitsmaß zu berechnen, können Sie hier ein Beispiel sehen: http://rapidminernotes.blogspot.co.uk/2011/03/counting- clusters-part-ii.html – awchisholm