0

Ich suche nach einem Ähnlichkeitsmaß (wie der Jaccard Index), aber ich möchte bekannte Ähnlichkeiten zwischen Objekten innerhalb des Satzes verwenden und die Verbindungen durch die Elementhäufigkeiten abwägen. Diese bekannten Ähnlichkeiten sind Werte zwischen 0 und 1, wobei 1 eine exakte Übereinstimmung anzeigt.Set Ähnlichkeitsmaß mit bekannten Item Ähnlichkeiten und Häufigkeiten

Betrachten wir zum Beispiel zwei Sätze:
SET1 {A, B, C} und SET2 {A 'B', C '}

Ich weiß, dass
{A, A'}, { B, B '}, {C, C'} haben jeweils eine Itemähnlichkeit von 0,9. Daher würde ich erwarten, dass die Ähnlichkeit von SET1 und SET2 relativ hoch ist.

wäre Ein weiteres Beispiel: betrachten zwei Sätze SET1 { A, B, C} und {SET2 A, B 'C', D, E, F, ....., Z}. Obwohl die Übereinstimmungen zwischen den ersten drei Elementen höher sind als im ersten Beispiel, sollte diese Punktzahl wahrscheinlich aufgrund des Größenunterschieds niedriger sein (wie in Jaccard).

Ein weiteres Problem hier ist, wie man Abundanzen als Gewichte verwenden, aber ich habe keine Ahnung, wie man das löst.

Im Allgemeinen brauche ich ein normalisiertes Set Ähnlichkeitsmaß, das diese Artikel Ähnlichkeit und Häufigkeit berücksichtigt.

Antwort

1

Korrigieren Sie mich, wenn ich falsch liege, aber ich denke, Sie brauchen Clusterfehler als Ähnlichkeitsmaß. Es ist der Anteil der Punkte, die nach einer optimalen Anpassung der Cluster in A 'und A unterschiedlich geclustert sind. Mit anderen Worten, es ist die skalierte Summe der nicht diagonalen Elemente der Konfusionsmatrix, minimiert über alle möglichen Permutationen von Zeilen und Spalten. Es verwendet den ungarischen Algorithmus, um hohe Rechenkosten zu vermeiden, und bestraft die unterschiedliche Anzahl von Elementen in Sätzen.

+0

Kurzes Follow-up: Was würden Sie hier clustern? Welche Literatur kann ich lesen? Beachten Sie, dass Elemente in mehr als einem Satz angezeigt werden können. –

+1

Normalerweise, wenn Sie mit unüberwachtem Lernen (Clustering) arbeiten, ist die Ausgabe von Ihrem Modell eine Menge von Etiketten, und Sie müssen diese vorhergesagten Etiketten mit den richtigen vergleichen (Grundwahrheit). Wenn die Grundwahrheit [A, A, B] ist und die Ausgabe des Modells [1,1,2] ist, bedeutet dies, dass CE 0 ist und Ihr Modell robust genug ist. –

+1

Es gibt nichts, das sich auf Clustering bezieht, es wird nur als Ähnlichkeitsmaß angewendet. Wenn Sie mehr als ein Paar Sets haben, können Sie das CE jeder Set-Kombination kombinieren. Suche nach: Methoden zum Vergleich Subraum-Clustering von Anne Patrikainen [http://cis.legacy.ics.tkk.fi/annep/lisuri.pdf] –