Das Problem ist, dass es Bilder geben kann, die nicht mit den spezifischen Bild-Erweiterungen sind. Zum Beispiel kramte Nutch2 eine Seite mit der Endung .ashx
, war aber immer noch ein Bild.Nutch 2 Inhalt Bild aus Crawlen auszuschließen
Gibt es eine Möglichkeit, Bilder mit einem HTML-Header-Filter auszuschließen: content-type: images/*
oder etwas Äquivalent, aber nicht auf einem URL-Muster (regex-urlfilter.txt
) basiert?