2016-07-20 10 views
0

Ich habe ein Dataset, das ich mit zwei verschiedenen Clustering-Algorithmen gruppiert habe. Die Ergebnisse sind ungefähr gleich, aber die Clusternummern sind permutiert. Jetzt für die Anzeige der farbcodierten Etiketten möchte ich die Label-IDs für die gleichen Cluster identisch sein. Wie kann ich die richtige Permutation zwischen den beiden Label-IDs bekommen?Clusternummern für korrekte Zuordnung neu sortieren

Ich kann dies mit roher Gewalt tun, aber vielleicht gibt es eine bessere/schnellere Methode. Ich würde sehr jede Hilfe oder Hinweise schätzen. Wenn möglich, suche ich nach einer Python-Funktion.

Antwort

1

Der bekannteste Algorithmus zum Finden der optimalen Anpassung ist die ungarische Methode.

Weil es nicht in ein paar Sätzen erklärt werden kann, muss ich Sie auf ein Buch Ihrer Wahl verweisen, oder Wikipedia article "Hungarian algorithm".

Sie können wahrscheinlich gute Ergebnisse erzielen (sogar perfekt, wenn der Unterschied tatsächlich klein ist), indem Sie einfach das Maximum der Korrespondenzmatrix auswählen und dann diese Zeile und Spalte entfernen.