Dataset: Ich bin die Anzahl der Minuten angegeben, die einzelne Kunden ein Produkt jeden Tag verwenden und versuche, diese Daten zu gruppieren, um gemeinsame Nutzungsmuster zu finden.Vorbereitung der Daten für die Verwendung Clustering
Meine Frage: Wie kann ich die Daten so formatieren, dass zum Beispiel ein Power User mit einem hohen Nutzungsgrad für ein Jahr genauso aussieht wie ein anderer Power User, der das Gerät erst seit einem Monat nutzen kann bevor ich die Datensammlung beendet habe?
Bisher habe ich jeden Kunden in ein Array verwandelt, in dem jede Zelle die Anzahl der Minuten an diesem Tag angibt. Dieses Array wird gestartet, wenn der Benutzer das Produkt zum ersten Mal verwendet und nach dem ersten Nutzungsjahr des Benutzers beendet wird. Alle Einträge in den Zellen müssen doppelte Werte (z.B. 200,0 Minuten verwendet) für das Clustermodell sein. Ich habe überlegt, entweder alle Zellen/Tage nach dem letzten Tag der Datenerfassung entweder auf -1.0 oder NULL zu setzen. Sind beide von diesen eine gültige Annäherung? Wenn nicht, was würdest du vorschlagen?
Bitte ** nicht cross-post **: http://datascience.stackexchange.com/q/11456/924 –
Die Data Science Community ist viel kleiner, ich habe keine Antwort rechtzeitig erwartet auch wenn sie in diesem Bereich mehr qualifiziert waren. Warum ist es nicht angebracht, dieselbe Frage in zwei separaten Communities zu posten? –