Ich habe einen großen Datensatz, den ich gerne Cluster würde. Meine Probelaufgröße beträgt 2.500 Objekte; Wenn ich es mit dem "echten Deal" betreibe, muss ich mindestens 20.000 Objekte bearbeiten.Clustering mit Kosinusähnlichkeit
Diese Objekte haben eine Kosinusähnlichkeit zwischen ihnen. Diese Kosinusähnlichkeit erfüllt nicht die Anforderungen einer mathematischen Abstandsmetrik; es erfüllt nicht die Dreiecksungleichheit.
Ich möchte sie auf eine "natürliche" Art und Weise gruppieren, die ähnliche Objekte zusammenbringt, ohne vorher die Anzahl der erwarteten Cluster angeben zu müssen.
Kennt jemand einen Algorithmus, der das tun würde? Wirklich, ich suche nur nach einem Algorithmus, der a) eine Entfernungsmetrik und b) eine vorher festgelegte Anzahl von Clustern nicht benötigt.
Vielen Dank!
Diese Frage vor hier gefragt wurde: Clustering from the cosine similarity values (aber diese Lösung nur bietet K-Means-Clustering) und hier: Effective clustering of a similarity matrix (aber diese Lösung eher vage war)
Von http://en.wikipedia.org/wiki/Cosine_similarity: „Obwohl der Begriff‚Cosinus Ähnlichkeit‘für diesen Winkelabstand verwendet wurde, wird der Begriff seltsam als Cosinus des Winkels verwendet nur als A verwendet wird bequemer Mechanismus zur Berechnung des Winkels selbst und ist kein Teil der Bedeutung.Der Vorteil des Winkelähnlichkeitskoeffizienten liegt darin, dass bei Verwendung als Differenzkoeffizient (durch Subtraktion von 1) * die resultierende Funktion eine korrekte Abstandsmetrik * ist, was für die erste Bedeutung nicht der Fall ist. " – phs
Danke! Leider habe ich Ich hätte etwas genaueres sagen sollen: Ich benutze eine kosinusähnliche Ähnlichkeit, die ich selbst definiert habe, sie erfüllt die Dreiecksungleichheit nicht. – user1473883