2016-05-16 20 views
1

Ich habe eine Liste von kontrollierten Vokabularen, z. B. term1, term2, termN .. Ein Dokument kann ein oder mehrere kontrollierte Vokabulare haben, aber jedes Vokabular kann nur einmal für jedes Dokument vorkommen.Ähnlichkeitsmaß für auf kontrollierten Vokabularen basierende Dokumente

Nehmen wir an, die gesamten kontrollierten Vokabulare sind Term1, Term2, Term3, Term4, Term5, Term6.

  1. Doc 1 (4 Begriffe): term1, term2, term5, term6
  2. Doc 2 (2 Begriffe): term2, term5

Option1: Der Jaccard-Ansatz sieht auf den beiden Daten Setzt und findet den Vorfall, bei dem beide Werte gleich 1 sind. Daher kann ich die Existenz eines kontrollierten Begriffs (Ausdruck 1-6) für ein Dokument in den Binärvektor 1,0 umwandeln. Dann berechnet die Ähnlichkeit basierend auf Jaccard (http://docs.scipy.org/doc/scipy-0.17.0/reference/generated/scipy.spatial.distance.jaccard.html)

  • Doc1: {1,1,0,0,1,1}
  • Doc2: {0,1,0,0,1,0}

Option 2 - verwenden Kosinusähnlichkeit basierend auf tf-idf wie in http://brandonrose.org/clustering

Unter diesen Optionen (oder vielleicht auch andere Ähnlichkeitsmaße), die Maßnahme geeignet ist Ähnlichkeit zwischen Dokumenten zu berechnen, basierend auf kontrollierte Vokabulare? Ich bin neu im Data Mining, jeder Vorschlag wird geschätzt.

Antwort

-1

Es lässt mich keinen Kommentar hinterlassen, also werde ich eine Antwort hinterlassen. Ich tue etwas ähnlich, aber in R, und finden diese hilfreich

http://text2vec.org/similarity.html#cosine_similarity 

Ich weiß nicht, ob es eine „richtige Antwort“ ist. Ich würde versuchen, die verschiedenen Ansätze zu sehen und zu sehen, welche die Antwort ähnlich einem menschlichen Urteil ergibt. Ich denke, dass "Euklidische Distanz" am besten ist, aber ich weiß nicht, ob das für Sie verfügbar ist. I