2016-08-05 51 views
0

Ich bin ziemlich neu mit der Arbeit mit Textdaten.Wie kann man herausfinden, wenn k für tf idf konvergiert?

Ich habe einen Datenrahmen von etwa 300.000 eindeutigen Produktnamen und ich versuche, k zu verwenden, um ähnliche Namen zusammen zu clustern. Ich benutzte sklearns tfidfvectorizer, um die Namen zu vektorisieren und in eine tf-idf-Matrix umzuwandeln.

Nachdem ich es in eine dünne Matrix umgewandelt habe, passe ich k mit 5-10 Clustern an, aber ich weiß nicht, ob ich konvergiere.

Wie kann ich das herausfinden?

+0

Es sollte eine Warnung ausgegeben werden, die ausgibt, wenn sie nicht konvergiert, wenn der Speicher ordnungsgemäß funktioniert – pyCthon

Antwort

1

Gemäß the source sollte das Attribut n_iter_ die Anzahl k-Means-Iterationen enthalten. Wenn n_iter_ < max_iter, dann konvergierte der Algorithmus innerhalb der gegebenen Toleranz. Wenn Sie versuchen, die optimale Anzahl von Clustern zu bestimmen, können Sie das elbow method mit dem inertia_ Attribut verwenden.