2016-03-23 22 views
1

Ich habe Probleme mit R, 'tm' Paket, um PDF-Dateien einzulesen. Insbesondere versuche ich den folgenden Code auszuführen:Installieren von Pdftotext unter Windows (zur Verwendung mit R, 'tm' Paket)

library(tm) 
filename = "myfile.pdf" 

tmp1 <- readPDF(PdftotextOptions="-layout") 
doc <- tmp1(elem=list(uri=filename),language="en",id="id1") 
doc[1:15] 

... was mir den Fehler gibt:

Error in readPDF(PdftotextOptions = "-layout") : 
    unused argument (PdftotextOptions = "-layout") 

Ich nehme an, dies auf die Tatsache zurückzuführen ist, dass das pdftotext Programm (Teil von xpdf , http://www.foolabs.com/xpdf/download.html) wurde auf meinem Rechner nicht korrekt installiert, so dass R nicht darauf zugreifen kann.

Was sind die Schritte zur korrekten Installation von xpdf/pdftotext, damit der obige R-Code ausgeführt werden kann? (Ich kenne ähnliche Fragen bereits, aber sie adressieren nicht das gleiche Problem)

+0

Was passiert, wenn Sie 'readPDF' ohne die Option' -layout' aufrufen? –

+0

versuchen Sie, das Paket pdftools zu verwenden. Das vermeidet den Aufwand der Installation von xpdf. – phiver

+0

@Karsten: Ausführen des Codes ohne die Einstellung -layout gibt mir den folgenden Fehler: >>> Fehler in System2 ("pdftotext", c (Steuerelement $ text, shQuote (x), "-"), stdout = TRUE): '' pdftotext '' nicht gefunden <<< – SuperUser01

Antwort

1

PdftotextOptions ist kein Parameter von readPDF. readPDF hat einen control Parameter, der eine Liste erwartet. So korrekte Verwendung wäre:

if(all(file.exists(Sys.which(c("pdfinfo", "pdftotext"))))) { 
    tmp1 <- readPDF(control = list(text = "-layout")) 
    doc <- tmp1(elem=list(uri=filename),language="en",id="id1") 
} 
+0

Das scheint auf den ersten Blick zu funktionieren. Ich werde Ihre Antwort bald annehmen, nachdem ich weiter darauf eingegangen bin. – SuperUser01

0

Set

setwd('C:/xpdf/bin64')     

Es funktioniert für mich.