Ich versuche einige PDF-Dokumente mit dem Paket tm
für Text Mining in R zu lesen. Allerdings sind meine PDF in Deutsch und ich weiß nicht, wie ich mit diesen Sonderzeichen umgehen soll .Umlaut ¨ mit Paket tm (Text Mining in R)
library(tm)
pathname <- "J:/branchwarren/docs/tm/"
raw_corpus <- VCorpus(DirSource(directory=path,encoding="UTF-8"), readerControl=list(reader=readPDF,language="de"))
tdm <- TermDocumentMatrix(raw_corpus)
tdm_mat <- as.data.frame(tdm)
Der Ausgang tdm_mat
zum Beispiel ist
1 geschã¤ftsverlauf 9 9 1 3 0 0
2 gesellschaft 1 3 1 1 1 1
3 gesellschaft. 0 0 1 1 1 0
4 gesellschaftskapital 1 1 1 1 1 1
5 gestaltung 1 1 1 1 1 1
6 gesteigert 0 0 2 0 2 6
7 gesunden 0 1 0 1 1 1
8 gewinnreserve 1 1 1 1 1 1
9 gewinnverwendung) 1 1
Wie Sie feststellen, das Zeichen in der ersten Zeile (wo die Spalten die Frequenzen in jedem PDF) sind nicht korrekt angezeigt wird. Es sollte Geschäftsverlauf sein.
Irgendwelche Hilfe oder Vorschläge? Vielen Dank im Voraus
Sie können die Sitzung als 'Sys.setlocale (" LC_CTYPE "," deutsch ") starten, anstatt die Kodierungsmethode" utf-8 "von R zu verwenden. –
@Nickil Maveli, es tut mir leid, aber es funktioniert nicht. Kannst du ein kleines Detail deiner Antwort aufführen? Vielen Dank – richpiana