Der Artikel zu DBSCAN "https://www.aaai.org/Papers/KDD/1996/KDD96-037.pdf" erläutert, dass der Wert für minpts für alle Datenmengen, für die der DBSCAN zum Clustering der Datenpunkte verwendet wird, 4 sein muss. Gibt es die besten Ergebnisse für jeden Eps-Wert?Ist minpts = 4 die beste Einstellung für jedes Dataset, das den DBSCAN-Algorithmus für das Clustering verwendet?
Antwort
In späteren Arbeiten schlagen die Autoren vor, standardmäßig minPts = 2 * dim zu verwenden.
J. Sander, M. Ester, H.-P. Kriegel und X. Xu. 1998.
Dichte-basierte Clustering in Spatial-Datenbanken:
Der Algorithmus GDBSCAN und seine Anwendungen.
Data Mining und Knowledge Discovery 2, 2 (1998), 169-194.
http://dx.doi.org/10.1023/A:1009745219419
Wenn Sie Duplikate haben, verwenden Sie einen größeren Wert: "Unsere Experimente zeigen, dass dieser Wert auch für Datenbanken D arbeitet, wo jeder Punkt nur einmal auftritt, das heißt, wenn D wirklich eine Menge von Punkten ist
Kleinere Werte sind normalerweise recheneffizienter. Halten Sie minPts also klein, aber nicht zu klein.
Immer studieren Sie Ihr Ergebnis. Benutze es niemals ohne doppelte Kontrolle.
Es gibt nicht so etwas wie "immer am besten". IIRC die Autoren vorgeschlagen, diesen Wert zuerst zu versuchen. Es bedeutet nicht, dass Sie manchmal andere Werte nicht versuchen sollten. Ich beginne normalerweise mit minpts = 10 ...
Auch müssen Sie noch epsilon variieren. Es ist wahrscheinlich wichtiger, Epsilon richtig zu wählen. Die zwei Parameter sind nicht unabhängig. Das Erhöhen der Anzahl kann bedeuten, dass Sie benötigen, um Epsilon zu erhöhen und umgekehrt.