0

Frage: Warum ist das Cluster-Dendrogramm von Textminingdaten unscharf/unordentlich geworden (siehe Link zum Diagramm unten)?Warum ist der Textblock in R unscharf geworden?

Synopsis: Ich habe zuerst die Originaldaten von ungefähr 5500 E-gescannten Artikeln aus einer Mongo-Datenbank gesammelt und als JSON-Objekt im Laufwerk gespeichert (Ode hier nicht gezeigt, mit Cran Mongolite Paket für R geerntet). Was hier gezeigt wird, ist die Standardtextverarbeitung (unter Verwendung des Cran TM -Pakets), um "das", "und", "ing", ";", ":" usw. zu reinigen. Dies führte zu dem nachfolgenden hierarchischen Clustering, das unscharf/MESSY aussieht, da einige der Wörter in dem Json-Objekt sehr lange Kombinationen von Buchstaben und keine echten Wörter waren, die getrennt identifiziert werden können.

Aufruf zwei der Bibliotheken

library("tm") 
library ("SnowballC") 

einen Pfad zu den Daten und einen Korpus von Text Erstellen

cname <- file.path("C:", "texts") 
docs <- Corpus(DirSource(cname)) 

die Verarbeitung der Text

docs <- tm_map(docs, removePunctuation) 
docs <- tm_map(docs, removeNumbers) 
docs <- tm_map(docs, removeWords, stopwords("english")) 
docs <- tm_map(docs, stripWhitespace) 
docs <- tm_map(docs, stemDocument) 
tdm <- TermDocumentMatrix(docs) 

Drittens das Clustering über dendrogram

d<-dist(tdm,method = "euclidean") 
hc<-hclust(d, method="ward.D2") 
library("rafalib") 
myplclust(hc, labels=hc$labels) 

Link zum Bild: cluster/dendrogram/text mining

Antwort

0

Antwort geschnitten weniger häufige Wörter, mehr als nur die Standard-Stoppwörter, die ich schon getan hatte (sehen, wie ich sie in den Code unten geschnitten)

mystopwords <- findFreqTerms(tdm, 1, 20) mystpwrds <- paste(mystopwords, collapse = "|") tdm <- tdm[tdm$dimnames$Terms[!grepl(mystpwrds,tdm$dimnames$Terms)],]

Das ganze Bild und Code wird hier veröffentlicht:

http://rpubs.com/antonyama/180574