Ich versuche, Daten über invasive Pflanzenspezies Standorte aus dem CABI invasive species compendium mit dem RVP-Paket zu extrahieren.Scrapping von Daten aus einer HTML-Tabelle
Nachdem ich ein paar Tutorials angeschaut habe, habe ich herausgefunden, dass ich in der Lage sein sollte, Daten aus Tabellen recht einfach zu scrappen. Ich laufe jedoch immer wieder in Schwierigkeiten.
Sagen wir, ich möchte Standortdaten für die Art Brassica tournefortii. Ich sollte in der Lage sein, diesen Code zu verwenden, der die Techniken outlined here verwendet, um Details der Orte zu erhalten, an denen die Spezies aufgezeichnet wurde.
library(rvest)
isc<-read_html("http://www.cabi.org/isc/datasheet/50069")
isc %>%
html_node("#toDistributionTable td:nth-child(1)") %>%
html_text()
jedoch diesen Code ausgeführt wird erhalte ich die Fehler
Error: No matches
Ich bin völlig neu Screen Scraping. Mache ich etwas schrecklich falsch?
Fantastisch, danke! Das sollte mir helfen, einen guten Anfang zu machen, um Daten von dieser Seite zu bekommen. Wie erhalten Sie die Informationen im xpath-Teil der xml_find_all-Funktion? –
Ich habe es aus dem Pfad, der in den Entwicklertools angezeigt wird, gemappt, nachdem ich mit der rechten Maustaste geklickt und in dieser Tabelle Element prüfen ausgewählt habe. Ich könnte es vielleicht mit CSS wiederholen, aber in manchen Situationen kann es hilfreich sein, einen kleinen XPath zu haben. – hrbrmstr