Ich bin auf einem Projekt mit R und ich fange an, meine Hände damit schmutzig zu machen.Text Mining mit R: Verwendung von Sub
Im ersten Teil versuche ich die Daten von Vektor msg zu bereinigen. Aber später, wenn ich die termdocumentmatrix
baue, erscheinen diese Zeichen noch. Ich möchte Worte entfernen mit weniger als 4 Buchstaben und entfernen Interpunktion
gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg)
gsub("[[:punct:]]", "", pclbyshares$msg)
corpus <- Corpus(VectorSource(pclbyshares$msg))
TermDocumentMatrix(corpus)
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq=120, highfreq=Inf)
Bitte geben Sie ein reproduzierbares Beispiel – akrun
Werfen Sie einen Blick auf 'tm_map' und' content_transformer' –