2012-05-27 8 views
5

Ich habe vor kurzem begonnen, Apache Nutch zu suchen. Ich könnte einrichten und in der Lage sein, Webseiten von Interesse mit Nutch zu crawlen. Ich verstehe nicht recht, wie man diese Daten liest. Ich möchte im Grunde Daten jeder Seite mit einigen Metadaten verbinden (einige zufällige Daten für jetzt) ​​und sie lokal speichern, die später für die Suche (semantisch) verwendet werden. Muss ich für dasselbe Solr oder Lucene verwenden? Ich bin neu in all diesen Dingen. Soweit ich weiß Nutch wird verwendet, um Webseiten zu crawlen. Kann es zusätzliche Funktionen wie das Hinzufügen von Metadaten zu den gecrawlten Daten ausführen?Nutch: Daten lesen und Metadaten hinzufügen

+0

Hallo CRS, da Sie Ihre Frage mit ‚Semantic-Web‘ getaggt Ich nehme an, Sie einige strukturierte Daten aus den Seiten, die Sie durchsuchen wollen, extrahieren möchten (entweder Mikroformate, RDFa und/oder Mikrodaten). Wenn das der Fall ist, wird es viel Zeit sparen, wenn man Anyy23 (http://incubator.apache.org/any23/) betrachtet (was vielleicht in Nutch integriert ist und wahrscheinlich versucht jemand das bereits oder schon getan zu haben)). – castagna

+0

Vielen Dank für die Antwort. Ich werde Any23 ansehen. Ich krabbele eigentlich "normale" Webseiten. Es ist nicht mit Metadaten verknüpft. Wir haben einen Algorithmus, der Metadaten aus dem Text dieser Webseiten berechnet. Diese Metadaten sollten der lokalen Kopie der Webseite hinzugefügt werden. Also suche ich nach einem Crawler, der die Webseiten durchsucht und Inhalte extrahiert und dann Metadaten in die lokale Kopie von Webseiten einfügt. – CRS

Antwort

3

Nützliche Befehle.

kriechen beginnen

bin/nutch crawl urls -dir crawl -depth 3 -topN 5 

Erhalten Sie Statistiken von gekrochen URL

bin/nutch readdb crawl/crawldb -stats 

lesen Segment (erhält alle Daten aus Web-Seiten)

bin/nutch readseg -dump crawl/segments/* segmentAllContent 

lesen Segment (wird nur den Text Feld)

bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -  noparse -noparsedata 

Hier erhalten Sie eine Liste aller bekannten Links zu jeder URL, einschließlich Quell-URL und Ankertext des Links.

bin/nutch readlinkdb crawl/linkdb/ -dump linkContent 

Erhalten Sie alle URLs gecrawlt. Gibt auch andere Informationen wie, ob es abgerufen wurde, abgerufene Zeit, modifizierte Zeit usw.

Für den zweiten Teil. d. h., um ein neues Feld hinzuzufügen, plane ich, das Index-Extra-Plugin zu verwenden oder ein benutzerdefiniertes Plugin zu schreiben.

Siehe:

this und this