Wir versuchen, Ähnlichkeiten zwischen Elementen (und späteren Benutzern) zu finden, bei denen die Elemente von Benutzern in verschiedenen Listen aufgeführt werden (denken Sie an Rob, Barry und Dick in Hi Fidelity). Ein niedrigerer Index in einer gegebenen Liste impliziert eine höhere Bewertung.Das effektivste Ähnlichkeitsmaß für Listeneinträge
Ich vermute, ein Standard-Ansatz wäre, die Pearson-Korrelation zu verwenden und dann die Indizes in irgendeiner Weise zu invertieren. Wie ich es verstehe, ist das Ziel der Pearson-Korrelation jedoch, Unterschiede zwischen Benutzern auszugleichen, die typischerweise Dinge höher oder niedriger bewerten, aber ähnliche relative Bewertungen haben.
Es scheint mir, dass wenn die Listen kontinuierlich sind (obwohl von beliebiger Länge), ist es kein Problem, dass die von der Position implizierten Bewertungen auf diese Weise verzerrt werden.
Ich nehme an, in diesem Fall würde eine Euklidische Ähnlichkeit ausreichen. Ist das der Fall? Würde die Verwendung der Pearson-Korrelation einen negativen Effekt haben und eine Korrelation finden, die nicht angemessen ist? Welches Ähnlichkeitsmaß passt am besten zu diesen Daten?
Zusätzlich wollen wir, dass die Position in der Liste wirkt, wir wollen jedoch keine zu weit auseinander liegenden Ranglisten bestrafen. Zwei Benutzer, die beide einen Eintrag in einer Liste mit sehr unterschiedlicher Rangfolge haben, sollten dennoch als ähnlich angesehen werden.
Ich bin von Tau Rank fasziniert. Es scheint perfekt, aber ich bin besorgt über die Komplexität davon. Da Sie alle möglichen Paarungen von Elementen vergleichen müssen, gibt es viel mehr Arbeit pro Benutzerpaar. Vielleicht würde es in dichteren Datensätzen leiden? –
Nur Elemente in den Top-Bewertungen eines jeden Benutzers zu berücksichtigen oder Stichproben aus einer kleinen Anzahl von Paaren zufällig zu ziehen, sollte eine vernünftige Annäherung schnell ergeben. Ich habe keine praktische Erfahrung mit dieser Metrik, nur meine Vermutungen hier. –