2016-04-19 2 views
0

Wie Video-Tag wie folgt mit Nutch holen könnenCrawling Video mit Nutch

<video width="320" height="240" controls> 
    <source src="video/video.mp4" type="video/mp4"> 
    <source src="video/video.ogg" type="video/ogg"> 
    Your browser does not support the video tag. 
</video> 

Nutch Bildtag holen, aber in Videoquelle hat nicht funktioniert. Kann mir jemand dabei helfen?

Vielen Dank für

+0

Video-Link wie URL/Video/video.mp4 oder URL/Video/video.ogg ist. Verwenden Sie also ihr src-Attribut. –

Antwort

1

Ich habe bereits dieses Problem zu beheben, indem Quelltag auf Plugin-Parsing-html Hinzufügen (DOMContentUtils.java)

linkParams.put("frame", new LinkParams("frame", "src", 0)); 
linkParams.put("iframe", new LinkParams("iframe", "src", 0)); 
linkParams.put("script", new LinkParams("script", "src", 0)); 
linkParams.put("link", new LinkParams("link", "href", 0)); 
linkParams.put("img", new LinkParams("img", "src", 0)); 
linkParams.put("source", new LinkParams("source", "src", 0)) 

dann mit Ameise wieder aufzubauen.

hoffen, seine hilfreich für den anderen

0

helfen müssen Sie diese Parse-plugins.xml in einzufügen.

<mimeType name="video/mp4"> 
    <plugin id="parse-tika" /> 
</mimeType> 

<mimeType name="video/ogg"> 
    <plugin id="parse-tika" /> 
</mimeType> 

Und fügen Parse-tika in Plugin enthält Eigenschaft nutch-site.xml.

<property> 
     <name>plugin.includes</name> 
     <value>protocol-http|urlfilter-regex|parse-(text|html|tika)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|urlnormalizer-(pass|regex|basic)</value> 

    </property> 
+0

Danke rocksta für die Hilfe! – nana