2016-04-22 5 views
-3

ich auf dieses sehr großes Werkzeug kam und vor dem Tauchen tief in einigen nicht so recht Dokumentationen und/oder den Kauf eines ebook: Ich wollte nur fragen:Nutch Vergünstigungen

Wie Nutch behandeln Javascript schwere Websites Und wie holt es Seiten? Ich meine: Wie überwindet es IP-Verbote?

+0

schreckliche Dokumentationen? – Prasad

+0

hey, Entschuldigung dafür :) Es ist nur ich habe einige mehr illustrative und praktische Bücher –

Antwort

0

Javascript - gibt es eine Selen-basierte Protokoll-Implementierung, das mit JS-Websites tragen kann

Nutch auf Hadoop basiert und so ist chargen angetrieben. Wenn Sie nach einem strombasierten Crawling-Framework suchen, wäre StormCrawler ein besseres Tool.

+0

Selen-Protokoll und Batch-Driven gelesen: Danke! Wie wäre es mit IP-Verboten: Ich weiß, Nutch folgt nur robots.txt. Ich denke, es löst dies, indem es sich darauf verlässt, dass es nützlicher ist, wenn es auf riesigen Plattformen wie Amazon Cloud Services bereitgestellt wird, oder? –