2016-04-11 2 views
0

Ich scraping eine Website mit Python, aber die Website wird mit Javascript gerendert und alle Links kommen von Javascript. Wenn ich also request.get(url) verwende, gebe ich nur den Quellcode, nicht die anderen Links, die mit Javascript generiert werden. Gibt es eine Möglichkeit, diese Links automatisch zu kratzen?Scraping Javascript gerendert HTML-Seite in Python

Ich habe auch etwas versucht, was hier beschrieben ist: Ultimate guide for scraping JavaScript rendered web pages. Aber das ist zu langsam zum Laden.

Gibt es einen schnelleren Weg, mit Mechanize, Phantom oder einer anderen Bibliothek? (Hinweis: Ich habe bereits PyQ4 versucht, aber das ist zu langsam - ich bin auf der Suche nach einer schnelleren Lösung).

Antwort

0

Sie können versuchen, PhantomJS oder Casperjs

Es gibt mehr Knoten Wrapper über Phantom geschrieben sind und casperjs eine der effizientesten und skalierbar ist „Geisterstadt“