Ich weiß, die ursprüngliche Kosinusähnlichkeit, wenn sie auf die Darstellung von zwei Dokumenten durch die Häufigkeit bestimmter Wörter angewendet wird, messen nicht die Reihenfolge der Wörter. Ich sehe jetzt eine ganze Reihe von Arbeiten, die Kosinusähnlichkeit auf die Repräsentation von Satzpaaren anwenden, die durch Wörtervektoren gebildet werden. Ich nehme an, dass sie die Token # x Einbettungslängenmatrix jedes Satzes zu einem langen Vektor abflachen, dessen Länge Token # x Einbettungslänge des ursprünglichen Satzes ist. So "Ich liebe dich" und "du liebst mich (normalisiert auf" Ich ") würde nicht 1 auf diese neue Art der Anwendung von Kosinusähnlichkeit ergeben, während der alte Weg 1 ergeben würde. Bin ich richtig? Danke für jede aufschlussreiche Antwort.Kosinusähnlichkeit der Repräsentation von Sätzen, die mit Wortvektoren gebildet werden, messen nun die Wortreihenfolge?
Genau
1
A
Antwort
1
!
„ich liebe dich“ und „du mich liebst (normierte auf‚I‘) würde 1 in dieser neuen Art Kosinusähnlichkeit während der alten Art und Weise nicht nachgeben der Anwendung ergäbe 1.
Diese Änderung ist gemacht:
Eine geringfügige Änderung wird für den Satz Darstellung vorgenommen. Anstatt Indexwörter aus einer Textsammlung zu verwenden, wird ein Satz von Wörtern , die im Satzpaar erscheinen, als Feature-Set verwendet. Dies geschieht, um den Grad der Daten Spärlichkeit in Satz Darstellung (simTFIDF, vector)
Das Standard-TF-IDF Ähnlichkeit zu reduzieren, ist definiert als Cosinus Ähnlichkeit zwischen Vektordarstellung von zwei Sätzen .
Sie können mehr lesen here