Ich benutze Apache Nutch 2.3.1 mit Elasticsearch 1.7 zum Crawlen und Indizieren jeweils. Nach dem Abschluss aller notwendigen Prozeduren enthält der endgültige Inhalt der geparsten Seite sowohl die Kopf- als auch die Fußzeile, was manchmal zu leicht irrelevanten Suchen führt.Sophisticated Seite Parsing mit Apache Nutch
Ich würde gerne Nutch konfigurieren, um die Kopf- und Fußzeile einer Seite aus dem Inhalt auszuschließen. Es gibt einige open Probleme in Nutchs JIRA, aber alle scheinen sich auf die Nutch 1.x-Filiale zu beziehen. Außerdem habe ich das boilerpipe Plugin aktiviert, aber ich habe keine Änderung in der Qualität des Inhalts bemerkt.
Gibt es ein Plugin oder einen anderen Weg, um eine genauere Analyse durchzuführen?
Gibt es Pläne, es für eine zukünftige Version zusammenzuführen? – dastergon