2016-03-31 11 views
1

Also, ich versuche Männer Schuhe von jabong.com zu kriechen.Crawlen von Websites mit Nutch 2.3.1 überspringt Produktlinks, aber kriegt andere Links

Meine Samen url ist:

http://www.jabong.com/men/shoes/ 

ich sicher nutch mache keine ? und = nicht überspringen mit diesem ist regex-urlfilter.txt:

-[*[email protected]] 

Das ist mein protocol.includes in nutch-site.xml:

protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr 

Es kriecht Links wie die Folgende und ich kann sie in solr suchen:

http://www.jabong.com/men/shoes/andrew-hill/ 
http://www.jabong.com/men/shoes/?sh_size=40 
http://www.jabong.com/all-products/?promotion=app-10-promo&cmpgp=takeover5 

Aber es ist nicht kriechen Produkte, die ich eigentlich durchsuchen wollen. Produkt-Links sind:

http://www.jabong.com/Alberto-Torresi-Black-Sandals-2024892.html?pos=2 
http://www.jabong.com/Clarks-Un-Walk-Brown-Formal-Shoes-874785.html?pos=11 

Das ist seltsam, weil diese Links gibt es auf der gleichen Seite wie die Samen URL, aber sie sind nicht gecrawlt zu werden. Ich habe eine wget um die Seite zu bekommen und sah die Links sind da also kein Javascript beteiligt.

Welchen Fehler mache ich?

Antwort

0

Stellen Sie sicher, dass Ihre Seitennavigation nicht von Cookies abhängig ist. Versuchen Sie, die crawlDB und die Segmente zu löschen, und prüfen Sie, ob die erwarteten URLs navigiert wurden oder nicht. Wenn navigiert wurde, welche Inhalte von dieser URL abgerufen wurden.