Welcher Cluseschneiden-Lernalgorithmus wird am besten für das Clustering eindimensionaler numerischer Merkmale (skalare Werte) verwendet? Ist es Birke, Spectral Clustering, k-Mittel, DBSCAN ... oder etwas anderes?Welcher Cluster-Algorithmus eignet sich am besten für das Clustering eindimensionaler Features?
Antwort
Alle diese Methoden sind besser für multivariate Daten. Mit Ausnahme von k-means, die historisch für eindimensionale Daten verwendet wurden, waren sie alle mit dem multivariaten Problem im Kopf entworfen, und keiner von ihnen ist gut für den speziellen Fall von 1-dimensionalen Daten optimiert.
Verwenden Sie für eindimensionale Daten Schätzung der Kerndichte. KDE ist eine schöne Technik in 1d, hat eine starke statistische Unterstützung und wird für Clustering in mehreren Dimensionen schwer zu verwenden.
Werfen Sie einen Blick auf K-means clustering algorithm. Dieser Algorithmus funktioniert sehr gut zum Gruppieren eindimensionaler Merkmalsvektoren. Aber K bedeutet, dass der Clustering-Algorithmus nicht sehr gut funktioniert, wenn Ausreißer in Ihrem Trainingsdatensatz vorhanden sind. In diesem Fall können Sie einige fortgeschrittene Algorithmen für maschinelles Lernen verwenden.
Ich würde vorschlagen, dass Sie vor der Implementierung eines maschinellen Lernalgorithmus (Klassifizierung, Clustering usw.) für Ihr Dataset und Ihre Problembeschreibung Weka Toolkit überprüfen können, welcher Algorithmus am besten zu Ihrer Problembeschreibung passt. Weka Toolkit ist eine Sammlung einer großen Anzahl von maschinellen Lern- und Data-Mining-Algorithmen, die für eine gegebene Frage einfach implementiert werden können. Sobald Sie festgestellt haben, welcher Algorithmus für Ihr Problem am besten geeignet ist, können Sie Ihre eigene Implementierung des Algorithmus ändern oder schreiben. Indem Sie es optimieren, können Sie sogar mehr Genauigkeit erreichen. Sie können von hier aus download weka.