Nutch 2 Inhalt Bild aus Crawlen auszuschließen

Das Problem ist, dass es Bilder geben kann, die nicht mit den spezifischen Bild-Erweiterungen sind. Zum Beispiel kramte Nutch2 eine Seite mit der Endung .ashx, war aber immer noch ein Bild.Nutch 2 Inhalt Bild aus Crawlen auszuschließen

Gibt es eine Möglichkeit, Bilder mit einem HTML-Header-Filter auszuschließen: content-type: images/* oder etwas Äquivalent, aber nicht auf einem URL-Muster (regex-urlfilter.txt) basiert?

Quelle

2016-08-09 dimzak

Sie können dies erreichen, indem Sie eine plugin schreiben, die URLFilter Schnittstelle erweitern wird.

In String filter(String urlString) Methode, können Sie überprüfen, die URL, wenn es eine vage Erweiterung hat dann weiter validieren durch Abrufen seiner HTTP-Header-Werte vom Server und überprüfen, ob sein Inhaltstyp ein Bild dann null zurückgeben sonst die URL. Aber ich bezweifle, dass dies keine sehr effiziente Methode wäre, da viele nutzlose HTTP-Aufrufe nur für diesen Validierungszweck generiert werden.

Eine andere Sache ist, lass es einfach sein und Nutch wird das Bild sowieso nicht analysieren und/oder indizieren.

Quelle

2016-08-09 11:42:15 MShoaib91

Nutch 2 Inhalt Bild aus Crawlen auszuschließen

Antwort

Verwandte Themen