Ich habe in den letzten zwei Wochen eine Website gesammelt/gecrawlt. Ich habe die crawl
Befehlseinstellung 100
Iterationen verwendet. Der Prozess ist gerade beendet. Wie kann ich die Abdeckung der gecrawlten Daten feststellen? Ich erwarte wirklich keine genaue Zahl, aber ich würde gerne wissen, etwa wie viele Informationen auf der Website nicht gecrawlt bleibt.Wie definiere ich die Coverage meines Nutch Crawl?
Antwort
Danke, @Jorge. Nach dem, was Sie gesagt haben:
Nutch hat keine Ahnung davon, wie groß/klein ist die Website (s) Sie kriechen
Also, gibt es keine Möglichkeit, das zu berechnen, es sei denn Sie wissen, die Größe der Website im Voraus.
Danke nochmal.
Sie Frage ist ein wenig mehrdeutig, wenn Sie versuchen zu bekommen, wie viele Daten der gesamten Website Sie bereits gecrawlt haben, ist dies ein schweres Problem, Nutch hat keine Ahnung, wie groß/klein ist die Website (s) Sie kriechen. Sie haben gesagt, dass Sie 100 Iterationen durchgeführt haben, indem Sie die Standardeinstellungen im bin/crawl
Skript verwenden. Dies bedeutet, dass Nutch bei jeder Iteration maximal 50 000 URLs (https://github.com/apache/nutch/blob/master/src/bin/crawl#L117) abruft, dies bedeutet jedoch nicht, dass Ihre Website nicht mehr hat URLs bedeutet nur, dass dies eine Konfiguration auf Nutch ist und vielleicht hat Nutch nicht einmal alle URLs gefunden. Bei jeder Iteration konnte Nutch neue URLs entdecken, die den Prozess inkrementell machen.
Was können Sie tun, ausführen ist die bin/nutch readdb
Befehl Bestehen der -stats
Parameter, so etwas wie:
$ bin/nutch readdb crawl/crawldb -stats
Dieses eine Ausgabe bringen sollte ähnlich wie:
CrawlDb statistics start: crawl/crawldb
Statistics for CrawlDb: crawl/crawldb
TOTAL urls: 575
retry 0: 569
retry 1: 6
min score: 0.0
avg score: 0.0069252173
max score: 1.049
status 1 (db_unfetched): 391
status 2 (db_fetched): 129
status 3 (db_gone): 53
status 4 (db_redir_temp): 1
status 5 (db_redir_perm): 1
CrawlDb statistics: done
Mit dieser Info Sie das wissen konnte, Gesamtzahl der gefundenen URLs und wie viel davon abgerufen wurde, zusammen mit weiteren nützlichen Informationen.