2016-05-04 16 views
0

Ich habe eine 1830 * 6800 Matrix wie unten:Clustering-Algorithmen für maschinelles Lernen Probe

enter image description here

Die Reihe 1830 für verschiedene Startup-Unternehmen ID ist, die Spalte für 6800 verschiedene Investoren. Jetzt möchte ich die Ähnlichkeiten zwischen jenen Unternehmen finden, die erfolgreich genug Geld sammeln, und denjenigen, die nicht so viel Glück haben, genug Geld zu bekommen.

Ich denke über die Verwendung von K-Means-Clustering und Spektralclustering, setzen Sie die Cluster-Nummer auf 2, um 2 verschiedene Gruppen zu haben (d. H. Erfolg & fehlschlagen). Aber das k-Mittel gibt mir fast alle 0, was bedeutet, dass alle Zeilen im selben Cluster sind.

Kann mir jemand etwas überlegen, wie man einen geeigneteren Algorithmus für diese Situation wählt? Es muss nicht gruppiert werden.

+0

Wie lauten die Werte in den Zellen? – flyingmeatball

+0

Die Werte sind entweder 1 oder 0. 1 ist für erfolgreich Geld von einem dieser Investoren, 0 für Fehler. –

+0

Was ist die Seltenheit Ihrer Daten? Wenn Sie Ihren gesamten Datenrahmen summieren, was bekommen Sie? – flyingmeatball

Antwort

1

Zufallsprojektion tut hier wahrscheinlich mehr Schaden als Nutzen. Stattdessen entfernen z.B. Alle Investoren, die in ein einzelnes Unternehmen investiert haben, alle Unternehmen, die keine Investoren mehr haben, wiederholen.

Aber alles in allem würde ich sagen, Sie haben hier eine hoffnungslose Aufgabe.

Clustering wird Ihnen nicht helfen. Es gibt keine Möglichkeit, Erfolg oder Misserfolg Cluster zu erhalten. Es ist viel wahrscheinlicher, dass Sie Cluster an der Ost- oder Westküste bekommen. oder verschiedene Felder. Clustering ist das falsche Werkzeug, wenn Sie ein Ziel wie Erfolg/Misserfolg haben.

Darüber hinaus sind Ihre Daten voller Anomalien, und k-means können nicht gut mit ihnen umgehen. Wahrscheinlich liegt fast alles im selben Cluster.

Das Beste, was Sie versuchen können, sind häufige Artikelsets, die (je nachdem, wie Sie es anwenden) Gruppen von Investoren identifizieren, die in dieselben Unternehmen investieren, und Gruppen von Unternehmen, die tendenziell dieselben Investoren haben.

+0

Welche häufigen Itemsets sollten Sie in diesem Fall ausprobieren? Kannst du mir ein paar Beispiele geben? –

0

Ich denke, Sie verwenden die Daten falsch. Wenn es 140.000.000.000 Investoren gibt, haben Sie eine extrem dünne Matrix. Hat jede Spalte Daten? Wenn nicht, entferne es. Sie sagen, Ihre Daten sind:

"1 oder 0 ist. 1 ist für erfolgreich Geld von einem dieser Investoren, 0 ist für Fehler." Die große Mehrheit Ihrer Zellen sollte dann null sein, weil ich mir nicht vorstellen kann, dass ein Startup versucht hat, Geld von 6.800 Investoren zu bekommen - stellen Sie sicher, dass Ihre Daten nur Nullen für diejenigen Firmen sind, die aktiv um Finanzierung gebeten wurden.

Auch, wie definieren Sie Erfolg? Ist es eine Anzahl von Investoren? Ein Betrag? Ich denke, Ihre Daten geben Ihnen, wie strukturiert, nicht die Antworten, nach denen Sie suchen.

+0

Sie meinen, ich sollte nur Nullen und Nullen haben? Und 0's für eine erfolgreiche Finanzierung während null's für das Scheitern?Aber ich denke nicht, dass es einen Unterschied machen wird, da 1 & 0's im Wesentlichen die gleichen sind wie 0's & Nulls –

+0

Und die Definition von Erfolg ist nicht etwas was ich weiß. Vielleicht ist es die Anzahl der Investoren, ich weiß es nicht. Dies ist eine reale Welt, und Sie können sich vorstellen, dass kein Standard festgelegt wurde. Deshalb nennt man es unüberwachtes Lernen und es ist nicht so einfach wie das überwachte. –

+0

Nein, Sie sollten 1 für Erfolg, 0 für Fehler und null haben, wenn sie es nicht versuchten. Wenn 0 als Standardwert verwendet wird, sagt das etwas ganz anderes, als dass es null ist. Was Sie hier wirklich gruppieren, sind Anlegermuster. Wer hat in die gleichen Firmen investiert? Das ist für mich eine andere Frage als das, was Sie oben gefragt haben. – flyingmeatball