Nutch 1,11 kriechen und Index sowohl example.com und example.com/index.html, da
- beide in Samen oder erreichbar über Verbindungen von einem der Samen
- Normalisierungs URL enthalten oder Filterregeln akzeptieren beide und normalisieren nicht einen
- sie sind keine Duplikate (identischer Inhalt)
- beide sind echte Seiten und keine Umleitungen
Zu 2: Es gibt eine Regel in regex-normalize.xml, die die beschriebene Normalisierung durchführt. Standardmäßig ist es nicht aktiv (auf Kommentar):
<!-- changes default pages into standard for /index.html, etc. into/
<regex>
<pattern>/((?i)index|default)\.((?i)js[pf]{1}?[afx]?|cgi|cfm|asp[x]?|[psx]?htm[l]?|php[3456]?)(\?|&|#|$)</pattern>
<substitution>/$3</substitution>
</regex> -->
In Bezug auf 3: Deduplizierung für Nutch deutlich verbessert 1.8 wurde und nun kein Betrieb auf dem Index aber Flags Duplikate direkt in CrawlDb. Sie sollten jedoch in den Protokollen sehen, dass beide URLs abgerufen werden. Die Duplizierung erfolgt später anhand der Prüfsumme des abgerufenen Inhalts.
Punkt 1: Ja, beide sind erreichbar und geholt. (Ich habe in Logs verifiziert) Punkt 2: Es ist in meinem Fall auch kommentiert. Punkt 3: Es gibt doppelten Inhalt, denke ich, wie beide Punkte auf index.html Punkt 4: Wie beide Punkte auf die gleiche Seite. Mai wegen identischem Inhalt, nutch indexiert einen von ihnen. Danke für Ihre freundliche Hilfe! – rocksta