Ich benutze die ELKI-Library und habe Clustering mit DBSCAN implementiert, aber da der Datensatz, mit dem ich arbeite, im Laufe der Zeit wächst, möchte ich einen inkrementellen Clusting-Algorithmus verwenden. Ich habe diese paper über einen inkrementellen DBSCAN-Algorithmus gefunden. Das Papier sagt, dass der Algorithmus mit ELKI implementiert wurde und dass diese Implementierung zu ELKI beigetragen wurde. Aber leider kann ich nicht herausfinden, wie DBSCAN inkrementell zu verwenden ist.Incremental Clustering mit ELKI
Antwort
Ich glaube nicht, dass wir diesen Beitrag zu ELKI schon bekommen haben.
Versuchen Sie, die Autoren zu kontaktieren. Wir würden einen solchen Beitrag schätzen.
Die GriDBSCAN- und ParallelDBSCAN-Implementierungen in ELKI können so geändert werden, dass sie ein inkrementelles DBSCAN-Clustering durchführen, solange Sie nur Einfügungen und keine Entfernungen haben.
Um eine gute inkrementelle DBSCAN API zu erstellen, ist es jedoch viel schwieriger: Wann und wie sollten "Ergebnisse" gemeldet werden? Reguläres DBSCAN hat ein klar definiertes Ergebnis, aber inkrementelles DBSCAN? Wie werden Daten zwischengespeichert?
Wenn Ihr Datensatz im Laufe der Zeit immer größer wird, müssen Sie möglicherweise auch die Parameter ändern. Reduzieren Sie beispielsweise Epsilon oder erhöhen Sie die Anzahl. Je nach Aktualisierungsrate kann das erneute Ausführen von DBSCAN genauso effektiv sein.