2016-07-22 10 views
0

Ich benutze Scikit-Learn zu tun Clustering von k-Mittel zu berechnen:Wie sickit lernen verwenden, um den k-Means Funktion Bedeutung

from sklearn import cluster 
k = 4 
kmeans = cluster.KMeans(n_clusters=k) 

aber eine andere Frage: Wie man verwendet scikit lernen die zur Berechnung k-bedeutet Merkmalsbedeutung?

+1

Können Sie beschreiben, was 'Feature Wichtigkeit' in der Einstellung von Clustering bedeutet? – cel

+0

Da die Antwort auf diese Frage einige Erklärungen zu Statistikkonzepten erfordert, ist sie möglicherweise besser für [CrossValidated] (http://stats.stackexchange.com) geeignet. – C8H10N4O2

Antwort

2

Leider gibt es meines Wissens keine "Merkmalswichtigkeit" im Kontext eines k-Means-Algorithmus - zumindest in dem Verständnis, dass Merkmalsbedeutung "automatische Relevanzbestimmung" bedeutet (wie in der Verbindung unten).

Tatsächlich behandelt der k-Means-Algorithmus alle Merkmale gleich, da das Clusterverfahren von den (ungewichteten) euklidischen Abständen zwischen Datenpunkten und Clusterzentren abhängt.

Allgemeiner gibt es Clustering-Algorithmen, die automatische Feature-Auswahl oder automatische Relevanzbestimmung oder generische Feature-Auswahlmethoden für Clustering durchführen. Ein spezifisches (und beliebiges) Beispiel ist Roth and Lange, Feature Selection in Clustering Problems, NIPS 2003