2016-05-09 4 views
2

In Clustern welche Auswirkungen haben die lauten, redundante und irrelevante Attribute darauf? Helfen sie Clustering zu helfen oder zu verletzen? Ich weiß, dass es mit verrauschten Daten nicht umgehen kann, aber bei den anderen beiden nicht sicher ist.Ermitteln der Auswirkungen von Clustering

Antwort

1

Lärm
Leistung vieler Clustering-Algorithmen wie k-means, Partitionierung um Median usw. verschlechtert als der Prozentsatz der Lärm zunimmt. Bei Beispielen für k-Means-Clustering variiert der Clustering-Schwerpunkt aufgrund der Ausreißer (Daten, die sich stark vom Datensatz unterscheiden). Der Algorithmus braucht lange Zeit, um zu konvergieren, und führt möglicherweise nicht zu einem guten Clustering.

Die meisten Cluster-Algorithmen bevorzugen, das Rauschen (Ausreißer) aus dem Datensatz vor dem Clustering zu entfernen.
Für weitere Informationen: Effect of noise on the performance of clustering techniques

Redundante Daten (kein redundantes Attribut aber redundante Datenpunkte)
diesen Effekt auch den Clustering in negativer Art und Weise, sondern hängt von dem Clustering-Algorithmus. Wenn ein Algorithmus die Häufigkeit des Datenpunkts berücksichtigt (Beispiel unter Berücksichtigung von Clusterpunkten, Median usw.), dann kann der Mittelwert des Clusters variieren.
Normalerweise möchten Sie Daten nicht auf der Grundlage der Wahrscheinlichkeit des Auftretens eines Datenpunkts gruppieren. Wenn also ein Datenpunkt redundant ist, wird empfohlen, ihn vor dem Clustering zu entfernen.

Wenn Sie redundante attrubute (d. H. Zusammengehöriges Attribut) betrachten, kann es Clustering beeinflussen oder auch nicht. Abhängig von der Domäne des Datensatzes.

Irrelevant Attribut
Auch die Effekt-Clustering in negativer Weise. Aufgrund des irrelevanten Attributs konvergiert das Clustering möglicherweise nicht. Tatsächlich werden manchmal irrelevante Attribute als Rauschen betrachtet. Auch bei höheren Dimensionen kommt der Fluch der Dimensionalität. Daher wird oft vorgeschlagen, die Dimensionalität vor dem Clustering zu reduzieren.

Einige Details:
Clustering high dimensional data
Effect of irrelevant attribute on fuzzy clustering