Ich bin ziemlich neu mit der Arbeit mit Textdaten.Wie kann man herausfinden, wenn k für tf idf konvergiert?
Ich habe einen Datenrahmen von etwa 300.000 eindeutigen Produktnamen und ich versuche, k zu verwenden, um ähnliche Namen zusammen zu clustern. Ich benutzte sklearns tfidfvectorizer, um die Namen zu vektorisieren und in eine tf-idf-Matrix umzuwandeln.
Nachdem ich es in eine dünne Matrix umgewandelt habe, passe ich k mit 5-10 Clustern an, aber ich weiß nicht, ob ich konvergiere.
Wie kann ich das herausfinden?
Es sollte eine Warnung ausgegeben werden, die ausgibt, wenn sie nicht konvergiert, wenn der Speicher ordnungsgemäß funktioniert – pyCthon