2016-04-18 4 views
0

Ich habe meine Anwendung auf nutch 1.11 von nutch 1.3 aktualisiert. Zuvor habe ich 2 URLs example.com/ und example.com/index.html bekommen, während ich durch nutch 1.3 gecrawlt habe.Sind example.com/ und example.com/index.html bei nutch 1.11 gleich?

Aber nach dem upgrade habe ich entweder zwei. Ich möchte bestätigen, dass Ist Nintch Upgrade intelligent genug, um dies zu erkennen?

Antwort

1

Nutch 1,11 kriechen und Index sowohl example.com und example.com/index.html, da

  1. beide in Samen oder erreichbar über Verbindungen von einem der Samen
  2. Normalisierungs URL enthalten oder Filterregeln akzeptieren beide und normalisieren nicht einen
  3. sie sind keine Duplikate (identischer Inhalt)
  4. beide sind echte Seiten und keine Umleitungen

Zu 2: Es gibt eine Regel in regex-normalize.xml, die die beschriebene Normalisierung durchführt. Standardmäßig ist es nicht aktiv (auf Kommentar):

<!-- changes default pages into standard for /index.html, etc. into/
<regex> 
    <pattern>/((?i)index|default)\.((?i)js[pf]{1}?[afx]?|cgi|cfm|asp[x]?|[psx]?htm[l]?|php[3456]?)(\?|&amp;|#|$)</pattern> 
    <substitution>/$3</substitution> 
</regex> --> 

In Bezug auf 3: Deduplizierung für Nutch deutlich verbessert 1.8 wurde und nun kein Betrieb auf dem Index aber Flags Duplikate direkt in CrawlDb. Sie sollten jedoch in den Protokollen sehen, dass beide URLs abgerufen werden. Die Duplizierung erfolgt später anhand der Prüfsumme des abgerufenen Inhalts.

+0

Punkt 1: Ja, beide sind erreichbar und geholt. (Ich habe in Logs verifiziert) Punkt 2: Es ist in meinem Fall auch kommentiert. Punkt 3: Es gibt doppelten Inhalt, denke ich, wie beide Punkte auf index.html Punkt 4: Wie beide Punkte auf die gleiche Seite. Mai wegen identischem Inhalt, nutch indexiert einen von ihnen. Danke für Ihre freundliche Hilfe! – rocksta