2016-03-30 12 views
0

Ich bin erfolgreich Crawl Web Link und Indexdaten in solr.
aber ich muss eine PDF-Datei für alle Link erstellen, die Crawl und Index in Solr werden. Ich weiß, dass Phantome mir pdf geben werden, aber ich habe nicht verstanden, wo ich in Nutch Phantome konfiguriere. Ich suche danach und ich weiß, dass ich Fetcher-Klasse von Nutch anpassen muss, aber ich wusste nicht, wie man es anpasst. bitte irgendjemand kann helfen. Ich bin fest davon in den letzten zwei Wochen.ist es möglich, Nutch Fetcher Klasse anzupassen?

+0

Könnten Sie bitte etwas mehr klären, ist es schwer, welche Aufgabe zu verstehen, Sie hier zu erreichen versuchen. Möchten Sie eine Liste aller URLs, die Sie bis jetzt gecrawlt haben? –

+0

@SujenShah Ich möchte PDF für alle URL erstellen, die durch nutch crawl werden. so muss ich wissen, in welcher Klasse ich ändern muss, so wird es pdf erstellen. (ich benutze Phantomjs für die Erstellung von pdf) .als ich weiß, nur ich muss Code in jede Klasse für die Erstellung von PDF setzen, aber bis jetzt habe ich nicht finde Klasse heraus. –

Antwort

0

Haben Sie in dd crawldb in einem CSV-Format dumping untersucht? Ich denke, dass Sie Ihre Aufgabe (die ich verstehe, um eine Liste aller URLs zu erhalten, die von Nutch gecrawlt werden) ohne Code-Änderung erreichen und die folgenden Schritte ausführen können.

könnten Sie verwenden ./bin/nutch readdb <crawldb path> -dump <output_dir> -format csv

Dieser Befehl Sie die URLs alle/nicht abgerufene in Nutch geholt geben. Sobald Sie es in CSV haben, können Sie es leicht als PDF exportieren.

Für weitere Informationen über den Befehl an https://wiki.apache.org/nutch/bin/nutch%20readdb einen Blick

+0

Eigentlich ist meine Aufgabe, dass ich PDF-Datei für alle URL erstellen muss, die von NUTCH crawl werden und auch wenn PDF von URL erstellen muss ich diesen PDF-Pfad in HBASE gespeichert und das wird in solr sein. –