Viele Algorithmen zum Clustering sind verfügbar. Ein populärer Algorithmus sind die K-Mittel, bei denen basierend auf einer gegebenen Anzahl von Clustern der Algorithmus iteriert, um die besten Cluster für die Objekte zu finden.Mit welcher Methode wählen Sie die optimale Anzahl an Clustern in k-means und EM?
Mit welcher Methode ermitteln Sie die Anzahl der Cluster in den Daten im k-Means-Clustering?
Enthält ein in R verfügbares Paket die Methode V-fold cross-validation
zur Bestimmung der richtigen Anzahl von Clustern? Ein weiterer gut verwendeter Ansatz ist der Expectation Maximization (EM) -Algorithmus, der jeder Instanz eine Wahrscheinlichkeitsverteilung zuordnet, die die Wahrscheinlichkeit angibt, dass sie zu jedem der Cluster gehört.
Ist dieser Algorithmus in R implementiert?
Wenn ja, hat es die Möglichkeit, automatisch die optimale Anzahl von Clustern durch Kreuzvalidierung auszuwählen?
Bevorzugen Sie stattdessen eine andere Clustermethode?
Ich habe das hierarchische Clustering bewusst weggelassen, weil hclust eine eher speicherhungrige Methode ist, die nicht für große Datenmengen geeignet ist, an denen ich eigentlich interessiert bin. –
Bitte definieren Sie, was Sie mit "optimal" meinen – hadley
Große Frage @Svante, ich habe viel darüber nachgedacht. Ich wollte sogar ein Paket mit mehreren Algorithmen für eine optimale Anzahl von Clustern schreiben (nur hclust-Methoden). @hadley, habe ich kennen: C-H-Index (Calinsky & Harabasz), C-Index, Goodman-Kruskal Gamma Coef. und es gibt einen Weg, "eine optimale Clusterlösung auszuwählen", indem man den F-Test verwendet. Hier ist ein Hinweis: Miligan, G.W. & Cooper, M.C. (1985). Eine Untersuchung von Verfahren zur Bestimmung der Anzahl von Clustern in einem Datensatz, Psychometrika, 50, 159-179 Obwohl ich annehme, dass Sie bevorzugen "Graph-basierte" Entscheidung über optimale Lösung ... – aL3xa