Ich habe eine Liste von kontrollierten Vokabularen, z. B. term1, term2, termN .. Ein Dokument kann ein oder mehrere kontrollierte Vokabulare haben, aber jedes Vokabular kann nur einmal für jedes Dokument vorkommen.Ähnlichkeitsmaß für auf kontrollierten Vokabularen basierende Dokumente
Nehmen wir an, die gesamten kontrollierten Vokabulare sind Term1, Term2, Term3, Term4, Term5, Term6.
- Doc 1 (4 Begriffe): term1, term2, term5, term6
- Doc 2 (2 Begriffe): term2, term5
Option1: Der Jaccard-Ansatz sieht auf den beiden Daten Setzt und findet den Vorfall, bei dem beide Werte gleich 1 sind. Daher kann ich die Existenz eines kontrollierten Begriffs (Ausdruck 1-6) für ein Dokument in den Binärvektor 1,0 umwandeln. Dann berechnet die Ähnlichkeit basierend auf Jaccard (http://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.spatial.distance.jaccard.html)
- Doc1: {1,1,0,0,1,1}
- Doc2: {0,1,0,0,1,0}
Option 2 - verwenden Kosinusähnlichkeit basierend auf tf-idf wie in http://brandonrose.org/clustering
Unter diesen Optionen (oder vielleicht auch andere Ähnlichkeitsmaße), die Maßnahme geeignet ist Ähnlichkeit zwischen Dokumenten zu berechnen, basierend auf kontrollierte Vokabulare? Ich bin neu im Data Mining, jeder Vorschlag wird geschätzt.