2016-03-23 13 views
0

Ich habe einen Datensatz mit einer Reihe von Benutzern und eine Geschichte von Dokumenten, die sie gelesen haben, alle Dokumente haben Metadaten-Attribute (think topic, Land, Autor) zugeordnet.Kategorische Clustering von Benutzern beim Lesen von Gewohnheiten

Ich möchte die Benutzer basierend auf ihrem Leseverlauf nach einem der Metadatenattribute gruppieren, die mit den Dokumenten verknüpft sind, auf die sie geklickt haben. Dieses Attribut hat 7 mögliche kategorische Werte und ich möchte eine Hypothese beweisen, dass es ein Muster für die Lesegewohnheiten der Benutzer gibt, und sie können in sieben Gruppen eingeteilt werden. Mit anderen Worten, diese Benutzer lesen häufig Dokumente basierend auf einem der 7 möglichen Werte in der bestimmten Metadatenkategorie.

Hat jemand einen Rat, wie man das speziell in R macht, wie bestimmte Pakete? Ich stelle fest, dass der Standard-K-Means-Algorithmus in diesem Fall nicht gut funktionieren wird, da die Daten kategorisch und nicht numerisch sind.

Antwort

0

Clusteranalyse kann nicht verwendet werden, um irgendetwas zu beweisen.

Die Ergebnisse sind sehr empfindlich gegenüber Normalisierung, Merkmalauswahl und Wahl der Abstandsmetrik. Also kein Ergebnis ist vertrauenswürdig. Die meisten Ergebnisse, die Sie erhalten, sind völlig nutzlos. So ist es so zuverlässig wie ein Beweis durch Beispiel.

Sie sollten nur für explorative Analyse verwendet werden, das heißt Muster zu finden, die Sie dann mit anderen Methoden studieren müssen.