2016-07-11 18 views
2

Ich bin ein neuer Programmierer für R. Und ich habe einige Artikel (.txt) in einem Ordner gespeichert. Jetzt kann ich Artikel in R importieren. Ich habe zwei Methoden und ich weiß nicht, welche viel besser ist.Wie kann ich mithilfe einiger Keywords herausfinden, welche Artikel diese Keywords enthalten?

Hier ist mein Code:

# 1 
library(tm) 
cname <- file.path("D:/magazine_pass") 
docs <- Corpus(DirSource(cname), readerControl=list(reader=readPlain)) 

# 2 
dir.list <- list.files("D:/magazine_pass" , full.name = TRUE) 
for(i in 1:length(dir.list)){ 
     file0 <- dir.list[i] 
     s <- readLines(file0,encoding="ASCII") 
     s <- sapply(s,function(row) iconv(row, "ASCII", "ASCII", sub="")) 
    } 

Und ich versuche auch diese Schlüsselwörter enthalten, welche Artikel zu finden einige biokeywords(ex.clean energy,wearable device) zu verwenden. Wie kann ich damit umgehen?

Bitte zeigen Sie mir den Code und beschreiben Sie ihn einfach. Danke vielmals.

Antwort

0

label1 = subset(docs, grepl(paste(c("clean energy","wearable device"), collapse = "|"), docs))

Dies sollte Ihr Korpus und ziehen Sie alle Einträge, die die Wörter innerhalb der Grepl Funktion enthalten schauen. Die grundlegende grep-Funktion durchsucht Dateien nach einem Zeichenfolgenmuster, das dem bereitgestellten Muster entspricht. grepl gibt einen logischen Vektor TRUE/FALSE zurück, ob Muster in der Funktion übereinstimmen.

+0

Vielen Dank! – Bruce