2010-12-08 5 views
1

Ich muss Websites crawlen und extrahieren einige Informationen aus dynamisch erstellten Seiten nach einer Formularübergabe.Crawling-Website mit dynamischen Seiten

Die Informationen, die ich crawlen muss, stammen hauptsächlich aus Datenbanken auf diesen Sites.

Hinzugefügt:

Crawlers in der Regel durch von einem Hyper-Link zu einem anderen springen arbeiten. Das sind also meist statische Seiten. Was ist mit dem Crawlen von Seiten, die nicht statisch vorhanden sind, sondern im Handumdrehen erstellt werden?

+0

Das ist nett, können Sie mehr Informationen zur Verfügung stellen? – leppie

+0

Ich habe auch dasselbe Problem. Wie kann dynamische Website bekommen. http://stackoverflow.com/questions/28085211/any-possiable-to-crawl-open-web-browser-data-using-aperture – BasK

Antwort

1

Aus Crawler-Sicht gibt es keinen großen Unterschied. Sie erhalten immer noch geniertes HTML.

Das einzige, was Sie vorsichtig sein müssen, ist Links zu unendlich vielen Seiten führen, z. Kalender, der dynamisch generiert wird und Links zum nächsten/vorherigen Monat/Jahr enthält.