Ich habe eine 1830 * 6800 Matrix wie unten:Clustering-Algorithmen für maschinelles Lernen Probe
Die Reihe 1830 für verschiedene Startup-Unternehmen ID ist, die Spalte für 6800 verschiedene Investoren. Jetzt möchte ich die Ähnlichkeiten zwischen jenen Unternehmen finden, die erfolgreich genug Geld sammeln, und denjenigen, die nicht so viel Glück haben, genug Geld zu bekommen.
Ich denke über die Verwendung von K-Means-Clustering und Spektralclustering, setzen Sie die Cluster-Nummer auf 2, um 2 verschiedene Gruppen zu haben (d. H. Erfolg & fehlschlagen). Aber das k-Mittel gibt mir fast alle 0, was bedeutet, dass alle Zeilen im selben Cluster sind.
Kann mir jemand etwas überlegen, wie man einen geeigneteren Algorithmus für diese Situation wählt? Es muss nicht gruppiert werden.
Wie lauten die Werte in den Zellen? – flyingmeatball
Die Werte sind entweder 1 oder 0. 1 ist für erfolgreich Geld von einem dieser Investoren, 0 für Fehler. –
Was ist die Seltenheit Ihrer Daten? Wenn Sie Ihren gesamten Datenrahmen summieren, was bekommen Sie? – flyingmeatball