2013-02-18 12 views
6

Bei einer Abfrage habe ich einen Cosinus-Score für ein Dokument. Ich habe auch die Dokumente pagerank. Gibt es eine gute Standardmethode, die beiden zu kombinieren?Kombinieren von TF-IDF (Kosinusähnlichkeit) mit PageRank?

ich multiplizieren dachte sie

Total_Score = cosine-score * pagerank 

Denn wenn Sie zu niedrig auf beiden Pagerank oder Kosinus-Score zu erhalten, das Dokument nicht interessant ist.

Oder ist es vorzuziehen, eine gewichtete Summe zu haben?

Total_Score = weight1 * cosine-score + weight2 * pagerank 

Ist das besser? Dann haben Sie möglicherweise eine Null-Kosinus-Punktzahl, aber einen hohen Seitenrang, und die Seite wird unter den Ergebnissen angezeigt.

+0

Die gewichtete Summe ist auf der richtigen Spur, aber möchten Sie einen w * log (PageRank) machen? oder w * log (1 + PageRank)? All dies wäre eine lineare Kombination, möchten Sie nicht eine nichtlineare Kombination betrachten, die eine sigmoide Signatur hat? – sAguinaga

Antwort

-1

Ich kann mir keinen einzigen Fall vorstellen, wo dies nützlich wäre. Pagrank berechnet, wie "wichtig" ein Dokument als Verbindung zu anderen wichtigen Dokumenten gemessen wird (ich nehme an, das ist was du meinst. Ränder sind Dokumente zu Dokumentverknüpfungen basierend auf Term-Co-Vorkommen. Wenn du etwas anderes meinst, bitte angeben).

Cosinus-Score ist ein Ähnlichkeitsmaß zwischen zwei Dokumenten. Sie möchten also eine paarweise Metrik mit einer Knotenmetrik kombinieren, um nur wichtige Dokumente zu finden, die einem anderen Dokument ähnlich sind? Warum nicht einfach einen PageRank auf dem Ego-Netzwerk des anderen Dokuments laufen lassen?

+1

Cosinus-Score ist die Kosinus-Ähnlichkeit zwischen der Abfrage und dem Dokument. – user1506145

0

Ich verstehe, dass Sie einen Kompromiss zwischen der Relativität und der Wichtigkeit machen. Dies ist ein Problem von Multi-objective optimization.

Ich denke, Ihre zweite Lösung würde funktionieren. Es ist die sogenannte lineare Skalarisierung. Sie müssen wissen, wie Sie die Gewichte optimieren können. Aber die Methoden, um dies zu tun, können mit verschiedenen Philosophien gefunden werden, und eine Art von subjektiven abhängig von der Vorrangstellung jeder Variablen von Fall zu Fall. Eigentlich So optimieren Sie die Gewichte in einem solchen Problem ist a research area of mathematics. Es ist also schwer zu sagen, welches Modell oder welche Methode am besten zu Ihrem Fall passt. Vielleicht möchten Sie mit den obigen Wiki-Links weitermachen und versuchen, wenn Sie einige Prinzipien für diese Art von Problemen finden, und dann folgen Sie ihnen, um Ihren eigenen Fall zu lösen.

1

Die gewichtete Summe ist wahrscheinlich besser als Ranking-Regel.

Es hilft, das Problem in einen Such-/Filterungsschritt und einen Ranking-Schritt aufzulösen. Das mit dem gewichteten Summenansatz skizzierte Problem gilt dann nicht mehr.

Der in this Papier von Sergey Brin und Lawrence Page skizzierte Prozess verwendet eine Variante des Vektor/Cosinus-Modells zum Abruf und es scheint eine Art gewichtete Summe für das Ranking, wo die Gewichte durch Benutzeraktivität bestimmt werden (siehe Abschnitt 4.5 .1). Bei Verwendung dieses Ansatzes würde ein Dokument mit Null-Kosinus nicht den Schritt des Suchens/Filterns durchlaufen und würde daher nicht für das Ranking in Betracht gezogen werden.

0

Sie könnten eine harmonic mean verwenden. Mit einem harmonischen Mittelwert werden die 2 Werte im Wesentlichen gemittelt, niedrige Werte werden den Durchschnitt jedoch stärker nach unten ziehen, als dies im normalen Durchschnitt der Fall wäre.

könnten Sie verwenden:

Total_Score = 2*(cosine-score * pagerank)/(cosine-score + pagerank) 

Lasst uns Pagerank 0,1 erzielt sagen und Kosinus 0.9 wäre der normale Durchschnitt dieser beiden Zahlen: (0.1 + 0.9)/2 = 0.5, das harmonische Mittel wäre: 2*(0.9*0.1)/(0.9 + 0.1) = 0.18.