2012-04-13 5 views
2

Ich versuche, Roh-HTML von gecrawlten Seiten in verschiedenen Dateien zu erhalten, benannt als URL der Seite. Ist es mit Nutch möglich, die rohen HTML-Seiten in verschiedenen Dateien zu speichern, indem Sie den Indizierungsteil ausschließen?Nutch Raw Html Speichern

+0

Sie können diesen Beitrag sehen [Wie speichere ich den Ursprung HTML-Datei mit Nutch] [1] [1]: https://stackoverflow.com/questions/10007178/how -do-ich-save-the-Herkunft-html-Datei-mit-Apache-nutch –

Antwort

2

Das ist keine direkte Möglichkeit, das zu tun. Sie werden einige Code-Änderungen vornehmen müssen. Siehe this und this.

+0

Danke, für diejenigen, die nach der Antwort suchen, ist die Antwort im ersten Link nützlich. –