Scraping Javascript gerendert HTML-Seite in Python

Ich scraping eine Website mit Python, aber die Website wird mit Javascript gerendert und alle Links kommen von Javascript. Wenn ich also request.get(url) verwende, gebe ich nur den Quellcode, nicht die anderen Links, die mit Javascript generiert werden. Gibt es eine Möglichkeit, diese Links automatisch zu kratzen?Scraping Javascript gerendert HTML-Seite in Python

Ich habe auch etwas versucht, was hier beschrieben ist: Ultimate guide for scraping JavaScript rendered web pages. Aber das ist zu langsam zum Laden.

Gibt es einen schnelleren Weg, mit Mechanize, Phantom oder einer anderen Bibliothek? (Hinweis: Ich habe bereits PyQ4 versucht, aber das ist zu langsam - ich bin auf der Suche nach einer schnelleren Lösung).

Quelle

2016-04-11 Anonymous

Sie können versuchen, PhantomJS oder Casperjs

Es gibt mehr Knoten Wrapper über Phantom geschrieben sind und casperjs eine der effizientesten und skalierbar ist „Geisterstadt“

Quelle

2016-04-11 11:15:10

Scraping Javascript gerendert HTML-Seite in Python

Antwort

Verwandte Themen