2016-04-24 9 views
-1

Ich bin ziemlich neu in Data Mining und Statistiken.SSAS-Clustering-Algorithmus Ergebnisse variieren mit der gleichen Eingabe

Ich habe ein Data Mining-Modell in Visual Studio erstellt. Ich verwende Microsoft Clustering-Algorithmus und ich habe einige Probleme.

Ich habe einige Standardparameter geändert, z. B. die maximalen Eingabeparameter auf 350 und die Clustermethode auf nicht skalierbare Erwartungsmaximierung setzen (ich habe 80 000 Datenzeilen). Außerdem habe ich die Anzahl der Cluster auf 0 gesetzt, damit der Algorithmus den besten auswählt.

kommt hier das Problem. Ich benutze Tempdb, die jedes Mal geleert wird, wenn ich meinen PC neu starte (ich habe nicht viel freien Speicherplatz, also ist Tempdb eine gute Option in dieser Abteilung). Jedenfalls, wenn ich die gleichen Daten neu lade und die Mining-Struktur erstelle, bekomme ich völlig andere Ergebnisse. Einmal habe ich 10 Cluster und dann 13 und danach 9. Ich habe auch versucht, die Clusteranzahl auf 13 zu setzen, um die gleichen Cluster zu reproduzieren, aber sie sind auch unterschiedlich (die Cluster selbst unterscheiden sich in ihrer Verteilung und Größe).

Meine Frage ist warum? Ist nicht EM-deterministisch. Ich verstehe kleine Änderungen in der Größe und Verteilung, aber ich bekomme jedes Mal andere Ergebnisse, wenn die Datenbank gelöscht wird. Sollte nicht der Algorithmus mir fast die gleichen Ergebnisse geben, nicht Ergebnisse, die sehr unterschiedlich sind. Mache ich etwas falsch?

Antwort

1

EM (Gaussian Mixture Modeling) ist wie k-bedeutet in der Regel initialisiert zufällig.

Also nicht, es ist nicht deterministisch, und unterschiedliche Ergebnisse zu bekommen ist normal.

+0

Aber die Fluktuationen im Ergebnis sollte klein sein, nicht groß? – DarkFeud

+0

nur, wenn die Daten sehr sauber und wirklich Gaussian sind. Wenn es eine schlechte Passform ist, gibt es wahrscheinlich mehr als eine schlechte Passform. –