Frage: Warum ist das Cluster-Dendrogramm von Textminingdaten unscharf/unordentlich geworden (siehe Link zum Diagramm unten)?Warum ist der Textblock in R unscharf geworden?
Synopsis: Ich habe zuerst die Originaldaten von ungefähr 5500 E-gescannten Artikeln aus einer Mongo-Datenbank gesammelt und als JSON-Objekt im Laufwerk gespeichert (Ode hier nicht gezeigt, mit Cran Mongolite Paket für R geerntet). Was hier gezeigt wird, ist die Standardtextverarbeitung (unter Verwendung des Cran TM -Pakets), um "das", "und", "ing", ";", ":" usw. zu reinigen. Dies führte zu dem nachfolgenden hierarchischen Clustering, das unscharf/MESSY aussieht, da einige der Wörter in dem Json-Objekt sehr lange Kombinationen von Buchstaben und keine echten Wörter waren, die getrennt identifiziert werden können.
Aufruf zwei der Bibliotheken
library("tm")
library ("SnowballC")
einen Pfad zu den Daten und einen Korpus von Text Erstellen
cname <- file.path("C:", "texts")
docs <- Corpus(DirSource(cname))
die Verarbeitung der Text
docs <- tm_map(docs, removePunctuation)
docs <- tm_map(docs, removeNumbers)
docs <- tm_map(docs, removeWords, stopwords("english"))
docs <- tm_map(docs, stripWhitespace)
docs <- tm_map(docs, stemDocument)
tdm <- TermDocumentMatrix(docs)
Drittens das Clustering über dendrogram
d<-dist(tdm,method = "euclidean")
hc<-hclust(d, method="ward.D2")
library("rafalib")
myplclust(hc, labels=hc$labels)
Link zum Bild: cluster/dendrogram/text mining