Sophisticated Seite Parsing mit Apache Nutch

Ich benutze Apache Nutch 2.3.1 mit Elasticsearch 1.7 zum Crawlen und Indizieren jeweils. Nach dem Abschluss aller notwendigen Prozeduren enthält der endgültige Inhalt der geparsten Seite sowohl die Kopf- als auch die Fußzeile, was manchmal zu leicht irrelevanten Suchen führt.Sophisticated Seite Parsing mit Apache Nutch

Ich würde gerne Nutch konfigurieren, um die Kopf- und Fußzeile einer Seite aus dem Inhalt auszuschließen. Es gibt einige open Probleme in Nutchs JIRA, aber alle scheinen sich auf die Nutch 1.x-Filiale zu beziehen. Außerdem habe ich das boilerpipe Plugin aktiviert, aber ich habe keine Änderung in der Qualität des Inhalts bemerkt.

Gibt es ein Plugin oder einen anderen Weg, um eine genauere Analyse durchzuführen?

Quelle

2016-05-12 dastergon

Sie könnten auch NUTCH-1870 verwenden, die XPath verwendet, um bestimmte Teile des Dokuments zu extrahieren, aber es wurde auch für Nutch 1.x entwickelt. Um ehrlich zu sein, obwohl die Nutch 2.x-Zweigstelle sich aktiv entwickelt (und sich im Laufe der Zeit stark verbessert hat), sind die 1.x-Versionen immer noch funktionsreicher und viele der neuen Beiträge konzentrieren sich auf den 1.x-Zweig.

Ich vermute, dass diese Plugins nicht zu schwer in Nutch 2.x portieren würden, und wir begrüßen jeden Beitrag.

Quelle

2016-05-12 13:09:01

Gibt es Pläne, es für eine zukünftige Version zusammenzuführen? – dastergon

Sophisticated Seite Parsing mit Apache Nutch

Antwort

Verwandte Themen