2

Es ist bekannt, wie kollaboratives Filtern (CF) für Film-, Musik- und Buchempfehlungen verwendet wird. In der Veröffentlichung "Collaborative Topic Modeling for Recommending Scientific Articles" zeigen Autoren unter anderem ein Beispiel für kollaboratives Filtern, das auf ~ 5.500 Benutzer und ~ 17.000 wissenschaftliche Artikel angewendet wird. Bei ~ 200.000 Benutzer-Objekt-Paaren ist die Benutzer-Artikel-Matrix offensichtlich sehr spärlich.Kollaboratives Filtern für Nachrichtenartikel oder Blog-Posts

Was ist, wenn Sie kollaborative Filterung mit matrix factorization für sagen, alle Nachrichtenartikel auf Twitter geteilt? Die Matrix wird noch spärlicher (als im Fall der wissenschaftlichen Artikel), wodurch CF nicht sehr gut anwendbar ist. Natürlich können wir eine inhaltsbewusste Analyse machen (unter Berücksichtigung des Textes eines Artikels), aber das ist nicht mein Fokus. Oder wir können unser Zeitfenster möglicherweise einschränken (z. B. auf alle Nachrichtenartikel, die am letzten Tag oder in der letzten Woche veröffentlicht wurden), um die Benutzerartikelmatrix dichter zu gestalten. Irgendwelche anderen Ideen, wie man die Tatsache bekämpfen kann, dass die Matrix sehr spärlich ist? Was sind die Forschungsergebnisse im Bereich CF für Nachrichtenempfehlungen? Vielen Dank im Voraus!

+1

Was ist das Problem mit Sparse Matrix? Sie meinen, dass die Matrix nicht in den Speicher passt oder die Ergebnisse ungenau sind? – ffriend

Antwort

4

Sie könnten versuchen, einen Objekt-zu-Objekt-Filter für die Zusammenarbeit anstelle eines Benutzer-Objekt-Filters zu verwenden. Alternde Paare (und Paare mit geringer Inzidenz) im Laufe der Zeit auslagern, da sie in Ihrem Anwendungsfall ohnehin weitgehend irrelevant sind.

Ich habe einige Zeit am Netflix Prize gearbeitet und schnell festgestellt, dass ich das Basismodell in Bezug auf die Vorhersage, welche Elemente die Favoriten der Benutzer waren, deutlich übertreffen konnte. Da es im Grunde eher ein Rangmodell als ein Skalarprädiktor ist, hatte ich leider keine zu vergleichenden RMSE-Werte.

Ich weiß, dass diese Methode funktioniert, weil ich eine Produktionsversion dieses gleichen Systems schrieb. Meine frühen Tests zeigten, dass bei einer Aufgabe, bei der 50% der Filme mit den besten Filmen der Nutzer gelöscht wurden, das Objekt-zu-Objekt-Modell etwa 16-mal mehr tatsächliche Favoriten der Nutzer als eine einfache Steigung vorhersagte (dh "ersetzt") Ein Modell. Plus die Tischgröße ist überschaubar. Von dort aus ist es einfach, abhängig von Ihrer Anwendung ein Rentabilitätsgewicht gegen die Sortierreihenfolge usw. zu integrieren.

Hoffe, das hilft! Ich habe eine funktionierende Version in der Produktion, bin aber immer noch auf der Suche nach Beta-Clients, die auf das System zugreifen. Wenn jemand Zeit hat, es zu versuchen, würde ich mich freuen, von Ihnen zu hören.

Jeb Stein, PhD

www.selloscope.com