Worte habe ich ein Zeichen (Text) Spalte:Regex in R - Unterkette basiert auf zwei Start Extrahieren/Stopp
tweets <- c(
"Drinking a Bud Light by @Budweiser @ Joe's Crab Shack http://www.joes.com",
"Drinking a Sam Adams Winter Ale by @SamAdams @ Growler Stop http://www.growlerstop.com",
"Drinking a Coco Loco by @NoDaBrewing @ The Corner Pub http://www.cornerpub.com"
)
Wie Sie die Tweets haben eine Standardstruktur sehen können, übernehmen:
"Drinking a [name of beer] by @[name of brewery] @ [name of bar, notice whitespace] http://"
möchte ich reguläre Ausdrücke verwenden (und substr()
?) drei neue Spalten zu erstellen:
- Namen des Bieres
- Name der Brauerei
- Name der Bar (beachten Sie, dass es Leerraum haben könnte, muss so um gehen „http:“)
Einen Schritt weiter - wie steuere ich für einige Tweets, die nicht die gleiche Struktur haben?