2016-07-12 22 views
1

Ich bin auf einem Projekt mit R und ich fange an, meine Hände damit schmutzig zu machen.Text Mining mit R: Verwendung von Sub

Im ersten Teil versuche ich die Daten von Vektor msg zu bereinigen. Aber später, wenn ich die termdocumentmatrix baue, erscheinen diese Zeichen noch. Ich möchte Worte entfernen mit weniger als 4 Buchstaben und entfernen Interpunktion

gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg) 
gsub("[[:punct:]]", "", pclbyshares$msg) 
corpus <- Corpus(VectorSource(pclbyshares$msg)) 
TermDocumentMatrix(corpus) 
tdm <- TermDocumentMatrix(corpus) 
findFreqTerms(tdm, lowfreq=120, highfreq=Inf) 
+1

Bitte geben Sie ein reproduzierbares Beispiel – akrun

+0

Werfen Sie einen Blick auf 'tm_map' und' content_transformer' –

Antwort

0

Sie haben die ersten beiden Zeilen Code nicht gespeichert als Variablen später zu verwenden. In der dritten Zeile, in der Sie Ihre corpus Variable erstellen, verwenden Sie also die unveränderten Daten msg. Geben Sie dieses einen Versuch:

msg_clean <- gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg) 
msg_clean <- gsub("[[:punct:]]", "", msg_clean) 
corpus <- Corpus(VectorSource(msg_clean)) 
TermDocumentMatrix(corpus) 
tdm <- TermDocumentMatrix(corpus) 
findFreqTerms(tdm, lowfreq = 120, highfreq = Inf) 
+0

Es scheint nicht die Interpunktion zu entfernen noch – Claudio

+0

Hat 'msg_clean' aussieht wie beabsichtigt nach? die ersten beiden Zeilen oben laufen? –