Text Mining mit R: Verwendung von Sub

Ich bin auf einem Projekt mit R und ich fange an, meine Hände damit schmutzig zu machen.Text Mining mit R: Verwendung von Sub

Im ersten Teil versuche ich die Daten von Vektor msg zu bereinigen. Aber später, wenn ich die termdocumentmatrix baue, erscheinen diese Zeichen noch. Ich möchte Worte entfernen mit weniger als 4 Buchstaben und entfernen Interpunktion

gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg) 
gsub("[[:punct:]]", "", pclbyshares$msg) 
corpus <- Corpus(VectorSource(pclbyshares$msg)) 
TermDocumentMatrix(corpus) 
tdm <- TermDocumentMatrix(corpus) 
findFreqTerms(tdm, lowfreq=120, highfreq=Inf)

Quelle

2016-07-12 Claudio

Bitte geben Sie ein reproduzierbares Beispiel – akrun

Werfen Sie einen Blick auf 'tm_map' und' content_transformer' –

Sie haben die ersten beiden Zeilen Code nicht gespeichert als Variablen später zu verwenden. In der dritten Zeile, in der Sie Ihre corpus Variable erstellen, verwenden Sie also die unveränderten Daten msg. Geben Sie dieses einen Versuch:

msg_clean <- gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg) 
msg_clean <- gsub("[[:punct:]]", "", msg_clean) 
corpus <- Corpus(VectorSource(msg_clean)) 
TermDocumentMatrix(corpus) 
tdm <- TermDocumentMatrix(corpus) 
findFreqTerms(tdm, lowfreq = 120, highfreq = Inf)

Quelle

2016-07-12 20:15:56

Es scheint nicht die Interpunktion zu entfernen noch – Claudio

Hat 'msg_clean' aussieht wie beabsichtigt nach? die ersten beiden Zeilen oben laufen? –

Antwort

Verwandte Themen