Ich versuche, Roh-HTML von gecrawlten Seiten in verschiedenen Dateien zu erhalten, benannt als URL der Seite. Ist es mit Nutch möglich, die rohen HTML-Seiten in verschiedenen Dateien zu speichern, indem Sie den Indizierungsteil ausschließen?Nutch Raw Html Speichern
2
A
Antwort
2
Sie können diesen Beitrag sehen [Wie speichere ich den Ursprung HTML-Datei mit Nutch] [1] [1]: https://stackoverflow.com/questions/10007178/how -do-ich-save-the-Herkunft-html-Datei-mit-Apache-nutch –