2016-05-24 14 views
0

Während des unüberwachten Lernens führen wir eine Clusteranalyse (wie K-Means) durch, um die Daten in eine Anzahl von Clustern zu sortieren.
Aber was ist die Verwendung dieser gruppierten Daten im praktischen Szenario.Welche Bedeutung hat das Clustering?

Ich denke, während des Clusterings verlieren wir Informationen über die Daten.
Gibt es einige praktische Beispiele, in denen Clustering nützlich sein könnte?

Antwort

1

Der Informationsverlust kann absichtlich sein. Hier sind drei Beispiele:

  • PCM Signalquantifizierung (Lloyd's k-Mittel Veröffentlichung). Sie wissen, dass bestimmte Zahlen (zB 10) verschiedene Signale übertragen werden, aber mit Verzerrung. Die Quantifizierung entfernt die Verzerrungen und extrahiert die ursprünglichen 10 verschiedenen Signale wieder. Hier verlieren Sie den Fehler und behalten das Signal.
  • Farbquantisierung (siehe Wikipedia). Um die Anzahl der Farben in einem Bild zu reduzieren, verwendet eine ziemlich gute Methode k-means (normalerweise in HSV oder Lab-Raum). k ist die Anzahl der gewünschten Ausgabefarben. Informationsverlust hier ist absichtlich, besser komprimieren das Bild. k-means versucht, die Näherung des Bildes im kleinsten Quadrats mit nur k Farben zu finden.
  • Wenn Sie Motive in Zeitreihen suchen, können Sie auch die Quantisierung wie k-means zu verwenden, um Ihre Daten in eine symbolische Darstellung umzuwandeln. Der Bag-of-Visual-Worts-Ansatz, der vor dem Deep Learning der Stand der Technik zur Bilderkennung war, nutzte dies ebenfalls.
  • Exploratives Data Mining (Clustering - man könnte argumentieren, dass obige Anwendungsfälle nicht Data Mining/Clustering sind, sondern Quantisierung). Wenn Sie einen Datensatz von eine Million Punkte haben, welche Punkte werden Sie untersuchen,? Clustering-Methoden versuchen, die Daten in Gruppen aufzuteilen, die homogener und unterschiedlicher sein sollen. Sie müssen nicht jedes Objekt betrachten, sondern nur einige jedes Clusters, um hoffentlich etwas über den gesamten Cluster (und Ihren gesamten Datensatz) zu erfahren. Zentroide Methoden wie k-means können sogar einen "Prototyp" für jeden Cluster liefern, obwohl es auch eine gute Idee ist, sich auch an anderen Punkten innerhalb des Clusters zu lösen. Sie können auch die Ausreißererkennung durchführen und einige der ungewöhnlichen Objekte betrachten. Dieses Szenario liegt irgendwo zwischen Probenahme repräsentativen Objekte und Reduzierung der Datensatzgröße zu besser zu verwalten. Der Hauptunterschied zu den obigen Punkten besteht darin, dass das Ergebnis normalerweise nicht automatisch "operationalisiert" wird, sondern explorative Clustering-Ergebnisse, die zu unzuverlässig sind (und daher viele Iterationen erfordern), müssen manuell analysiert werden.