Ich habe fast tausend PDF-Journal-Artikel in einem Ordner. Ich muss meinen Text in allen Abstracts des Artikels aus dem ganzen Ordner schreiben. Jetzt mache ich folgendes:Verwenden Sie R, um PDF-Dateien in Textdateien für Text-Mining zu konvertieren
dest <- "~/A1.pdf"
# set path to pdftotxt.exe and convert pdf to text
exe <- "C:/Program Files (x86)/xpdfbin-win-3.03/bin32/pdftotext.exe"
system(paste("\"", exe, "\" \"", dest, "\"", sep = ""), wait = F)
# get txt-file name and open it
filetxt <- sub(".pdf", ".txt", dest)
shell.exec(filetxt)
Damit ich eine PDF-Datei auf eine TXT-Datei am Konvertieren und dann das Kopieren der Zusammenfassung in einer anderen .txt-Datei und kompilieren Sie es manuell. Diese Arbeit ist mühsam.
Wie kann ich alle einzelnen Artikel aus dem Ordner lesen und sie in. TXT-Datei, die nur die Zusammenfassung von jedem Artikel enthalten konvertieren. Es kann getan werden, indem der Inhalt zwischen ABSTRACT und EINLEITUNG in jedem Artikel begrenzt wird; aber ich kann das nicht. Jede Hilfe wird geschätzt.
Dies ist nicht wirklich eine R Frage. Sie benötigen ein Dienstprogramm, um Text aus PDF-Dokumenten zu extrahieren, und das ist KEIN Design-Ziel von R. Meine Abstimmung zum Schließen basiert auf der Tatsache, dass dies ein impliziter Aufruf für ein solches Tool ist. –
Nicht ganz eine R-Frage; Aber Bens Antwort hat mir sehr geholfen. Vielen Dank. –
mögliche Duplikate von [Wie man PDF-Formularfelder automatisch in XML exportiert] (http://stackoverflow.com/questions/21009608/how-to-export-pdf-form-fields-to-xml-automatisch) –