Hier sind die Dinge, die ich auf meinem Korpus tat -Wie man verrückte Zeichen wie 002 ÿþ | | "â from von Text in R entfernen?
CorpusX = tm_map(CorpusX, content_transformer(tolower))
CorpusX = tm_map(CorpusX, removeWords, c("X", stopwords("english")))
CorpusX = tm_map(CorpusX, removePunctuation)
CorpusX = tm_map(CorpusX, stripWhitespace)
CorpusX = tm_map(CorpusX, removeNumbers)
CorpusX = tm_map(CorpusX, stemDocument)
CorpusX = tm_map(CorpusX, PlainTextDocument)
Danach ich ein Dokument-Begriff-Matrix hergestellt und dann Wortwolke. Wenn ich durch diesen Fluss gehe und keine Versuche mache, die Zeichen wie die in der Frage erwähnten zu entfernen, funktioniert alles gut. Aber wenn ich versuche, diese Zeichen zu entfernen, bekomme ich Fehler wie unten -
>Error in UseMethod("TermDocumentMatrix", x) : no applicable method
> for 'TermDocumentMatrix' applied to an object of class
> "c('DocumentTermMatrix', 'simple_triplet_matrix')"
ich für eine effiziente Methode suchen mit solchen Zeichen zu behandeln.
PS- Ich habe die Beschreibung der Frage komplett geändert, weil die Leute verwirrt wurden (meine Schuld). Danke für die Hilfe!
Die Fehlermeldung scheint etwas anderes zu sagen, nämlich, dass das Objekt in die falsche Klasse hat ... – Frank
Eigentlich mit ich beide (dtm und TDM-) versucht, aber der Fehler war gleich. Ich denke, ich muss die Beschreibung der Frage ändern. – Sunny