2016-04-08 12 views
-1

Ich habe 43574 Zeitreihen mit EM-Clusterer geclustert. Die Ausgabe ist 24 Cluster. Ich habe hier einige Fragen. Erstens, ist es praktisch sinnvoll, mit 24 Clustern umzugehen? Ist es nicht zu viel? Wenn ich die Ergebnisse an einen Neurochirurgen weiterleite, der diese Cluster zum Zweck des Patientenmanagements markiert, geht das an die Arbeit? Meine wichtigste Frage ist, dass, wie unten gezeigt, einige Cluster 0% Wahrscheinlichkeit haben ?! was bedeutet das? Warum sind sie dann in verschiedenen Clustern? Jede Hilfe wäre sehr dankbar, Und das ist, was ich habe:EM Clustering mit Weka mit Log-Wahrscheinlichkeit von 0 für einige Cluster? Verwirrende Ausgabe

0 1892 (4%) 1 5153 (12%) 2 1594 (4%) 3 1221 (3%) 4 122 (0 %) 5 2714 (6%) 6 7092 (16%) 7 141 (0%) 8 166 (0%) 9 464 (1%) 10 3331 (8%) 11 4316 (10%) 14 2411 (6%) 15 2573 (6%) 17 3063 (7%) 18 142 (0%) 19 4211 (10%) 20 925 (2%) 21 2038 (5%) 22 5 (0%)

Antwort

0

Diese Werte sind nicht Likelihood, aber Größe.

data=array([1892, 5153, 1594, 1221, 122, 2714, 7092, 141, 166, 
    464, 3331, 4316, 2411, 2573, 3063, 142, 4211, 925, 2038, 5]) 

for f in data * 100./sum(data): print "%.1f%%" % f, 

ergibt die folgenden relativen Clustergrößen mit einer zusätzlichen Stelle der Präzision:

4.3% 11.8% 3.7% 2.8% 0.3% 6.2% 16.3% 0.3% 0.4% 1.1% 7.6% 9.9% 
5.5% 5.9% 7.0% 0.3% 9.7% 2.1% 4.7% 0.0% 

Diese sind nicht Mutmaßlichkeiten. Es ist Clustergröße/Datensatzgröße.

+0

Anony, Es ist mir unklar, was bedeutet es, 5 Cluster zu definieren, die alle 0% haben?! Wie du schon sagtest, die Clustergröße. Wenn in diesem Cluster keine Daten kategorisiert werden können, warum erhalten wir diesen Cluster ?! Auch warum bekomme ich mehrere 0% statt 1? – Parisan

+0

Es ist nicht absolut 0,0000000% aber 5/43574. Es ist auch keine Wahrscheinlichkeit. es ist nur ein ** sehr kleiner Cluster mit nur 5 Objekten **. Wahrscheinlich Ausreißer oder schlechte Vorverarbeitung. –

+0

Danke Anony. Macht Sinn. – Parisan