2016-04-20 3 views
-2

Hier sind die Artikeldaten, die ich habe.Mustererkennung und String-Manipulation in R

#
inp <- Sentence1+sentence2+.......+ LAST SENTENCE OF THE ARTICLE+A version of this article appears in print on 08/05/2015, on page C3 of the.... 

Ich möchte zwei Dinge tun.

Erstens würde Ich mag zu aller Sätze loszuwerden von „Eine Version dieses Artikels erscheint in gedruckter Form“.

Zweitens würde Ich mag die C3 in dem „auf 2015.08.05 Eine Version dieses Artikels erscheint in gedruckter Form, auf Seite C3“ extrahieren Satz.

Ich habe versucht, diese mit str_replace_all Funktion zu tun, aber ich konnte nicht.

Antwort

1

Testfall:

art <- "Sentence1+sentence2+.......+ LAST SENTENCE OF THE ARTICLE+ A version of this article appears in print on 08/05/2015, on page C3 of the Archive copy. The archive can be fouund here, blah, blah. And more blah, blah, blah." 

Zuerst entfernen unerwünschtes Material bis zu der Seite, ref (einschließlich Leerzeichen nach "page"). Wir gehen davon aus, dass alle Artikel ein Datum im Format dd/nn/YYYY haben;

> pgref <- gsub("^.+appears\\ in\\ print\\ on\\ \\d{2}/\\d{2}/\\d{4}.+page\\ ", "", art) 
> pgref 
[1] "C3 of the Archive copy. The archive can be fouund here, blah, blah. And more blah, blah, blah." 
> pgref <- gsub("\\ .+$", "", pgref) 
> pgref 
[1] "C3" 

Dann bewegen auf den hinteren Sachen zu entfernen:

> trimart <- gsub("A version of this article\\ appears\\ in\\ print\\ on\\ \\d{2}/\\d{2}/\\d{4}.+$", "", art) 
> trimart 
[1] "Sentence1+sentence2+.......+ LAST SENTENCE OF THE ARTICLE+ " 
+0

Dank! es funktioniert ziemlich gut! – user3509199

+0

Wo ist dann das Häkchen? (Sie sind zu neu, um Upvote zu finden, denke ich.) Ich habe beschlossen, sie wieder zu eröffnen, da ich dachte, es sei eine hinreichend klare Frage und erforderte nur minimale zusätzliche Kodierung, um eine Antwort zu erstellen. –