-1

Dataset: Ich bin die Anzahl der Minuten angegeben, die einzelne Kunden ein Produkt jeden Tag verwenden und versuche, diese Daten zu gruppieren, um gemeinsame Nutzungsmuster zu finden.Vorbereitung der Daten für die Verwendung Clustering

Meine Frage: Wie kann ich die Daten so formatieren, dass zum Beispiel ein Power User mit einem hohen Nutzungsgrad für ein Jahr genauso aussieht wie ein anderer Power User, der das Gerät erst seit einem Monat nutzen kann bevor ich die Datensammlung beendet habe?

Bisher habe ich jeden Kunden in ein Array verwandelt, in dem jede Zelle die Anzahl der Minuten an diesem Tag angibt. Dieses Array wird gestartet, wenn der Benutzer das Produkt zum ersten Mal verwendet und nach dem ersten Nutzungsjahr des Benutzers beendet wird. Alle Einträge in den Zellen müssen doppelte Werte (z.B. 200,0 Minuten verwendet) für das Clustermodell sein. Ich habe überlegt, entweder alle Zellen/Tage nach dem letzten Tag der Datenerfassung entweder auf -1.0 oder NULL zu setzen. Sind beide von diesen eine gültige Annäherung? Wenn nicht, was würdest du vorschlagen?

+0

Bitte ** nicht cross-post **: http://datascience.stackexchange.com/q/11456/924 –

+0

Die Data Science Community ist viel kleiner, ich habe keine Antwort rechtzeitig erwartet auch wenn sie in diesem Bereich mehr qualifiziert waren. Warum ist es nicht angebracht, dieselbe Frage in zwei separaten Communities zu posten? –

Antwort

1

Für das Problem, wo Sie beiden Benutzer wollen (eine, die das Produkt eine Menge jeden Tag für ein Jahr verwendet wird, und die andere es viel für einen Monat verwendet), um einen neuen Eintrag zu erstellen, wo es Werte gibt, sind:

avg_usage per time_bin 

time_bin kann ein Monat, ein Tag oder eine andere Zeit sein, die am besten zu Ihren Bedürfnissen passt. Auf diese Weise kann ein Benutzer, die ein Produkt verwenden, lassen Sie sich für ein Jahr pro Tag 200 Minuten sagen, erhalten:

200 * 30 * 12/12 = 6000 minutes per month 

und die anderen Benutzer, die erst im vergangenen Monat kamen, werden auch erhalten, mit dem exakt gleichen Nutzung erhalten:

200 * 30 * 1/1 = 6000 minutes per month. 

auf diese Weise ist es egal, wenn Sie das Produkt, das einzige, was das betrifft, ist die Nutzungsrate zu verwenden, haben begonnen.

Eine wichtige Sache, die Sie in Betracht ziehen könnten, dass Produkte für einige Zeit vielleicht vergessen werden. zum Beispiel, ein Computer, und ich bin für einen Urlaub weg. Die Tage, an denen ich meinen Computer nicht benutzt habe, haben (vielleicht) keinen Einfluss auf meinen allgemeinen Gebrauch dieses Produktes. Auf der Grundlage Ihrer Daten, Ihres Produkts und Ihrer Intuition könnten Sie daher in Erwägung ziehen, Lücken wie die oben erwähnte zu schließen und diese nicht in der Berechnung zu berücksichtigen.

Die Zeit, die ein Benutzer Ihr Produkt verwendet hat, könnte ein Signal von etwas sein, aber wenn er tatsächlich erst vor einiger Zeit gestartet wurde und bis heute verwendet wird, kann es etwas sein, das Sie berücksichtigen müssen Für diesen Zweck kann diese durchschnittliche Binning-Methode hilfreich sein.