2016-05-18 15 views
1

Ich arbeite an einem qualitativen Analyseprojekt im tm-Paket von R. Ich habe ein Korpus erstellt und eine Term-Dokument-Matrix erstellt und kurz gesagt, ich muss meine Term-Dokument-Matrix bearbeiten und einige davon zusammenführen seine Reihen. Um dies zu tun ich es aus R exportiert habe mitImportieren einer TermDocumentMatrix in R

write.csv() 

ich dann die CSV-Datei wieder in R importiert habe, bin aber kämpfen, um herauszufinden, wie R, um es als TermDocumentMatrix oder DocumentTermMatrix zu lesen.

Ich habe versucht, die Vorschläge des folgenden Beispielcodes ohne Erfolg zu verwenden.

Es scheint zu lesen meine Matrix, als ob es ein Korpus und jede Zelle als ein einziges Dokument war.

# change this file location to suit your machine 
file_loc <- "C:\\Documents and Settings\\Administrator\\Desktop\\Book1.csv" 
# change TRUE to FALSE if you have no column headings in the CSV 
x <- read.csv(file_loc, header = TRUE) 
require(tm) 
corp <- Corpus(DataframeSource(x)) 
dtm <- DocumentTermMatrix(corp) 

Gibt es eine Möglichkeit in einer CSV-Matrix zu importieren, die als termdocumentmatrix oder documenttermmatrix ohne R gelesen werden, um die csv lesen, als ob jede Zelle ein Dokument?

Antwort

0

Sie lesen keine Dokumente, überspringen Sie also den Schritt Corpus(). Dies sollte direkt arbeiten:

myDTM <- as.DocumentTermMatrix(x, weighting = weightTf) 

für das nächste Mal, sollten Sie die TDM-Objekt als .rdata wie diese Einsparung wird keine Konvertierung erforderlich ist, und ist auch wesentlich effizienter.

0

Wenn Sie das Format von Daten beibehalten möchten, würde ich empfehlen, die save() function zu verwenden. Sie können alle R-Objekte in einer .RData-Datei speichern. Und wenn Sie die Daten abrufen möchten, können Sie die Funktion load() verwenden.