2013-08-26 10 views

Antwort

31

stopwords bietet Ihnen nur einen Vektor von Wörtern, nur c ombine Ihre eigenen dazu.

tm_map(abs, removeWords, c(stopwords("english"),"my","custom","words")) 
+0

Anstatt dies für jede Operation zu tun, gibt es eine Datei oder ein Diktat, wo ich diese zusätzlichen Stoppwörter wie Prozent, Cent, Million usw. hinzufügen kann? – Pradeep

1

Sie können einen Vektor Ihrer benutzerdefinierten erstellen Stoppwörter & die Anweisung wie folgt verwendet werden:

tm_map(abs, removeWords, c(stopwords("english"), myStopWords)) 
+0

Wird erwartet, dass die myStopWords eine Liste oder ein Zeichen sind? Können Sie einen Befehl zum Erstellen von myStopWords bereitstellen? Enthält diese Arbeit myStopWords <- read.csv ('mystop.csv') – harsha

1

Es ist möglich, eigene Stoppwörter in die Standardliste der Stoppwörter hinzuzufügen, die zusammen mit tm kam installieren . Das Paket "tm" wird mit vielen Datendateien einschließlich Stoppwörtern geliefert. Beachten Sie, dass Stoppworddateien für viele Sprachen verfügbar sind. Sie können die Datei Englisch.dat unter Stoppwörterverzeichnis hinzufügen, löschen oder aktualisieren.
Der einfachste Weg, um das Stoppwörterverzeichnis zu finden, ist die Suche nach dem Verzeichnis "stopwords" in Ihrem System über Ihren Dateibrowser. Und Sie sollten Englisch.dat zusammen mit vielen anderen Sprachdateien finden. Öffnen Sie die Datei "german.dat" von RStudio, mit der Sie die Datei bearbeiten können. Sie können Ihre eigenen Wörter hinzufügen oder vorhandene Wörter löschen. Es ist der gleiche Prozess, wenn Sie Stoppwörter in einer anderen Sprache bearbeiten möchten.

2

Speichern Ihrer benutzerdefinierten stop words in einer CSV-Datei (zB: word.csv).

library(tm) 
stopwords <- read.csv("word.csv", header = FALSE) 
stopwords <- as.character(stopwords$V1) 
stopwords <- c(stopwords, stopwords()) 

Dann können Sie custom words auf Ihren Text-Datei.

+0

bitte für Code-Blöcke 4-Raum-Einzug verwenden (anstatt sie backticking) – YakovL