Ich plane Webcrawling in einer Anwendung zu verwenden, an der ich gerade arbeite. Ich habe etwas über Nutch recherchiert und einige Vorversuche mit ihm gemacht. Aber dann bin ich auf Scrapy gestoßen. Aber als ich einige vorbereitende Recherchen durchführte und die Dokumentation über scrapy durchging, fand ich heraus, dass es nur strukturierte Daten erfassen kann (Sie müssen den div-Namen angeben, von dem Sie Daten erfassen wollen). Das Backend der Anwendung, die ich entwickle, basiert auf Python und ich verstehe Scrapy ist Python basiert und einige haben vorgeschlagen, dass Scrapy besser als Nutch ist.Scrapy Vs Nutch
Meine Anforderung besteht darin, die Daten von mehr als 1000 verschiedenen Webseiten zu erfassen und nach relevanten Schlüsselwörtern in diesen Informationen zu suchen. Gibt es eine Möglichkeit, dass scrapy dieselbe Anforderung erfüllen kann?
1) Wenn ja, können Sie auf ein Beispiel hinweisen, wie es gemacht werden kann?
2) Oder Nutch + Solr ist am besten geeignet für meine Anforderung
Div-Name ist keine Voraussetzung für Scrapy, können Sie alles erfassen, was Sie wollen. –