Das Ziel des Verstärkungslernens ist typischerweise die Maximierung der langfristigen Belohnung für einen Agenten, der eine Art Spiel spielt (ein Markov Entscheidungsprozess). Bei einer typischen Verstärkungslernenutzung werden neuronale Netzwerke verwendet, um die Q-Funktion anzunähern. Die Eingabe des Netzwerks ist also der Zustand und die Aktion (oder eine Merkmalsdarstellung davon), und die Ausgabe ist der Wert, der diese Aktion in diesem Zustand ausführt. Algorithmen zur Verstärkung des Lernens wie Q-Learning liefern die Details zur Auswahl von Aktionen zu einem bestimmten Zeitschritt und diktieren auch, wie Aktualisierungen der Wertfunktion durchgeführt werden sollten.
Es ist nicht klar, wie Ihr spezifisches Ziel, ein Kunden-Churn-Modell aufzubauen, als ein Markov-Entscheidungsproblem formuliert werden könnte. Sie könnten Ihre Status als Statistiken über die Interaktionen der Kunden mit der Unternehmens-Website definieren, aber es ist nicht klar, was die Aktionen sein könnten, weil nicht klar ist, was der Agent ist und was er tun kann. Aus diesem Grund fällt es Ihnen schwer, eine Belohnungsfunktion zu definieren. Die Belohnungsfunktion sollte dem Agenten mitteilen, ob es einen guten Job macht. Wenn wir uns also einen MDP vorstellen, bei dem der Agent versucht, die Kundenabwanderung zu minimieren, können wir eine negative Belohnung bereitstellen, die proportional zur Anzahl der Kunden ist, die umdrehen.
Ich glaube nicht, dass Sie eine Q-Funktion lernen möchten. Ich denke, es ist wahrscheinlicher, dass Sie interessiert sind einfach in betreutes Lernen, wo Sie einige Beispieldaten haben und Sie eine Funktion lernen wollen, die Ihnen sagen wird, wie viel Abwanderung wird es sein. Dazu sollten Sie Gradienten-Abstiegsmethoden und Vorwärts/Rückwärts-Propagation für das Training Ihres neuronalen Netzwerks betrachten.