Ich versuche, den Text von Disqus Kommentare von einer Online-Lokalzeitung mit RSelenium in Chrome zu kratzen oder zu erhalten, finde aber, dass es ein wenig schwierig für meine Fähigkeiten ist. Ich habe viele Orte durchsucht, aber nicht die richtigen Informationen gefunden oder die falschen Suchbegriffe verwendet (höchstwahrscheinlich).RSelenium Scraping für Disqus Kommentare
Bis jetzt habe ich es geschafft, den "normalen" html von den Seiten zu bekommen, aber kann nicht die richtige Klasse, CSS-Selektor oder ID bestimmen, um die Disqus-Kommentare zu erhalten. Ich habe Selectorgadget auch versucht, aber dieses zeigt nur auf #dsq-app2
, das den gesamten Disqus-Bereich auf einmal auswählt und nicht erlaubt, kleinere Teile des Bereichs auszuwählen. Ich habe das selbe mit RSelenium unter Verwendung elems <- mybrowser$findElement(using = "id", "dsq-app2")
mit einer "Umgebung" versucht, die in elems
gespeichert wird. Dann habe ich versucht, Kind Elemente innerhalb elems
zu finden, aber kam leer.
Anzeigen der Seite über Entwickler-Tools ich, dass die interessante Sachen in einem Iframe genannt #dsq-app2
ist und haben es geschafft, extrahieren alle seine Quelle durch die elems$getPageSource()
nach dem Rahmen Schalt mit elems$switchToFrame("dsq-app2")
sehen können. Dies gibt den ganzen HTML-Code als einen großen "schmutzigen" Chunk aus und sucht nicht nach den erforderlichen Dingen, die in <p>
Tags und anderen interessanten Elementen wie den Nutzernamen des Posters in data-role="username"
und anderen enthalten sind. Ich finde den richtigen Weg nicht.
Ich habe auch versucht mit dem Rat gegeben here, aber die Disqus-Setup ist ein wenig anders. Eine der Seiten, die ich versuche, ist this mit dem Großteil der Kommentare innerhalb eines Abschnitts namens conversation
und eine Tonne anderer IDs wie posts
und die unbestellte Liste mit der id=post-list
, die letztlich die Kommentare trägt, die ich kratzen muss.
Alle Ideen oder Hilfe-Tipps sind sehr willkommen und dankend erhalten.
Können Sie die URL der Zeitung posten? – Stedy
In meinem letzten Absatz habe ich einen Link in der zweiten Zeile :-). http://www.maltatoday.com.mt/news/national/67431/education_minister_says_that_mixing_with_different_social_groups_is_essential_to_education#.V4S1m7iF6Uk – salvu