Also, ich versuche Männer Schuhe von jabong.com zu kriechen.Crawlen von Websites mit Nutch 2.3.1 überspringt Produktlinks, aber kriegt andere Links
Meine Samen url ist:
http://www.jabong.com/men/shoes/
ich sicher nutch mache keine ?
und =
nicht überspringen mit diesem ist regex-urlfilter.txt
:
-[*[email protected]]
Das ist mein protocol.includes
in nutch-site.xml:
protocol-httpclient|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-solr
Es kriecht Links wie die Folgende und ich kann sie in solr suchen:
http://www.jabong.com/men/shoes/andrew-hill/
http://www.jabong.com/men/shoes/?sh_size=40
http://www.jabong.com/all-products/?promotion=app-10-promo&cmpgp=takeover5
Aber es ist nicht kriechen Produkte, die ich eigentlich durchsuchen wollen. Produkt-Links sind:
http://www.jabong.com/Alberto-Torresi-Black-Sandals-2024892.html?pos=2
http://www.jabong.com/Clarks-Un-Walk-Brown-Formal-Shoes-874785.html?pos=11
Das ist seltsam, weil diese Links gibt es auf der gleichen Seite wie die Samen URL, aber sie sind nicht gecrawlt zu werden. Ich habe eine wget
um die Seite zu bekommen und sah die Links sind da also kein Javascript beteiligt.
Welchen Fehler mache ich?