Ich verwende WEKA für die Durchführung von Text-Sammlung. Angenommen, ich habe n Dokumente mit Text, berechnete ich TFID als Merkmalsvektor für jedes Dokument und berechnete Kosinusähnlichkeit zwischen jeder von jeder der von document.it erzeugten nXn-Matrix. Jetzt frage ich mich, wie man diese nxn-Matrix im k-Mittelwert-Algorithmus verwendet. Ich weiß, dass ich einige Dimensionsreduktion wie MDS oder PCA anwenden kann. Was ich hier verwechsle, ist, dass ich nach Anwendung der Dimensionsreduktion das Dokument selbst identifizieren werde, zum Beispiel, wenn ich 3 Dokumente d1, d2 d3 als Kosinus habe, ergibt das Distanzen zwischen d11, d12, d13 d21, d22, d23 d31 , d32, d33 jetzt bin ich nicht sicher, was nach PCA oder MDS ausgegeben wird und wie ich die Dokumente nach kmean identifizieren werde. Bitte vorschlagen. Ich hoffe, ich habe meine Frage klar gestelltwie man Text Clustering von Kosinusähnlichkeit aus tut
-1
A
Antwort
0
PCA wird auf die Rohdaten verwendet, nicht auf Entfernungen, d.h. PCA(X)
.
MDS verwendet eine Abstandsfunktion, d. H. MDS(X, cosine)
.
Sie scheinen zu glauben, dass Sie PCA(cosine(X))
ausführen müssen? Das funktioniert nicht.
Sie möchten MDS(X, cosine)
ausführen.
danke für reply.however meine Abfrage ist, dass, sobald Sie das Ergebnis von MDS jetzt erhalten, wie Sie diese Daten für das Clustering verwenden werden. In einfachen Worten, ich bin nicht klar, wie man die nxn Distanzmatrix verwendet, die aus Kosinusähnlichkeitsfunktion in kmean oder irgendeinem anderen Clusteralgorithmus berechnet wird. Was mich verwirrt, diese zu verwenden (quadratische Matrix von Entfernungen) ist, dass jetzt Dimension von n zu geändert wird nxn. Irgendein Vorschlag bitte. – Nhqazi
Das wird von MDS gelöst. Nach MDS haben Sie eine Matrix von Koordinaten, keine Abstandsmatrix. –
danke. aber ich denke, MDS wird mir keinen Cluster geben. Ich möchte die Daten im Cluster gruppieren. MDS geben x, y-Koordinate, wie man es in k bedeutet, als? – Nhqazi