Letzte Woche habe ich eine Arbeit gelesen, die MDP als eine alternative Lösung für Empfehlungssysteme vorschlägt, Der Kern dieses Papiers war Darstellung des Empfehlungsprozesses in Bezug auf MDP, dh Zustände, Aktionen, Übergangswahrscheinlichkeiten, Belohnungsfunktion und so weiter.Markov-Entscheidungsprozess: gleiche Aktion führt zu verschiedenen Zuständen
Wenn wir der Einfachheit halber ein Einzelbenutzersystem annehmen, dann sehen Zustände wie k-Tupel (x1, x2, .. , xk)
aus, wobei letztes Element xk das allerletzte Element darstellt, das vom Benutzer gekauft wurde. Angenommen, unser aktueller Status ist (x1, x2, x3)
, was bedeutet, dass der Benutzer x1, dann x2 und dann x3 in chronologischer Reihenfolge gekauft hat. Wenn er jetzt x4 kauft, wird der neue Zustand (x2, x3, x4)
sein.
Nun, was das Papier vorschlägt, ist, dass diese Zustandsübergänge durch Aktionen ausgelöst werden, bei denen die Aktion "dem Benutzer ein Element x_i empfiehlt". aber das Problem ist, dass eine solche Aktion zu mehr als einem Staat führen kann.
Zum Beispiel, wenn unser aktueller Stand (x1, x2, x3)
ist, und Handeln ist für den Benutzer „x4 empfehlen“, dann ist das mögliche Ergebnis könnte ein von zwei sein:
der Benutzer die Empfehlung von x4 akzeptiert und neuem Zustand wird (x2, x3, x4)
der Benutzer die Empfehlung von x4 ignoriert (dh kauft etwas anderes) und neuen Zustand wird jeder Staat (x2, x3, xi)
wo xi sein! = ist x4
Meine Frage, hat MDP tatsächlich gleiche Aktion unterstützen Auslösung zwei oder mehr verschiedene Zustände ?
UPDATE. Ich denke, die Aktionen sollten formuliert werden als "bekommt Empfehlung von Artikel x_i und akzeptiert es" und "erhält Empfehlung von Artikel x_i und lehnt es ab" und nicht einfach "erhält Empfehlung von Artikel x_i"
danke für die antwort. Das Papier sagt, dass die Zustände k-Tupel jeder Größe sein können, also ist auch k = 1 möglich. Ich habe den Teil noch nicht gelesen, in dem die Vor-/Nachteile der k-Wert-Auswahl diskutiert werden, also kann ich nicht darüber streiten:) Was mich interessiert, ist die Möglichkeit, dieselbe Aktion für den Übergang in mehrere verschiedene Staaten zu verwenden. Ich habe auch das Wiki gelesen, aber es gibt nichts darüber – mangusta
gibt es auch ein Konzept des Q-Lernens, das eine Aktionswertfunktion 'Q (s, a)' definiert. es bildet jedes Zustands-Aktions-Paar in einen Belohnungswert ab, daher können wir die beste Aktion wählen, während wir im Zustand "s" sind, indem wir "Q (s, a)" -Werte für alle Aktionen "a" im Zustand "s" vergleichen. Aber wenn dieselbe Aktion zu verschiedenen Zuständen führen kann, bedeutet dies, dass "Q (s, a)" für alle diese Übergänge gleich ist, was ein wenig sinnvoll ist – mangusta