Nutch Raw Html Speichern

Ich versuche, Roh-HTML von gecrawlten Seiten in verschiedenen Dateien zu erhalten, benannt als URL der Seite. Ist es mit Nutch möglich, die rohen HTML-Seiten in verschiedenen Dateien zu speichern, indem Sie den Indizierungsteil ausschließen?Nutch Raw Html Speichern

Quelle

2012-04-13 İsmet Alkan

Sie können diesen Beitrag sehen [Wie speichere ich den Ursprung HTML-Datei mit Nutch] [1] [1]: https://stackoverflow.com/questions/10007178/how -do-ich-save-the-Herkunft-html-Datei-mit-Apache-nutch –

Das ist keine direkte Möglichkeit, das zu tun. Sie werden einige Code-Änderungen vornehmen müssen. Siehe this und this.

Quelle

2012-04-14 02:06:55

Danke, für diejenigen, die nach der Antwort suchen, ist die Antwort im ersten Link nützlich. –

Antwort

Verwandte Themen