2010-12-16 8 views
-1

Ich werde meine eigene Suchmaschine machen.Worum geht es bei Nutch?

Bei der Suche über Suchmaschine, Crawler und so weiter, ich verwechselte über Nutch.

Ich verstehe nicht was ist Nutch. Ist es für den internen Gebrauch wie Lucene (korrigieren Sie mich, wenn ich falsch bin) oder ein Framework zum Erstellen einer Suchmaschine (Beispiel: google, bing, yahoo)?

Antwort

2

Nutch ist eine voll funktionsfähige Suchmaschine - sie kann externe Websites crawlen, und sie versteht und respektiert robots.txt.

http://nutch.apache.org/about.html

Übersicht Nutch ist Open-Source- Web-Such-Software. Es baut auf Lucene und Solr, Web-Spezifika Zugabe wie einem Crawler, ein Link-Graph Datenbank, Parser für HTML und andere Dokumentformate usw.

Nutch auf einer einzigen Maschine laufen kann, aber gewinnt viel seine Kraft aus in einem Hadoop-Cluster ausgeführt

Das System verbessert werden kann (zB andere Dokumentformate können analysiert werden) unter Verwendung von ein Plugin-Mechanismus.

Weitere Informationen zu Nutch, finden Sie im Nutch-Wiki.

0

Nutch ist ein vorgefertigter, konfigurierbarer Web-Crawler mit einem Java-Servlet zur Suche. Wenn Sie dies als ein Projekt tun wollten, tut Nutch wahrscheinlich zu viel, da nur noch die Seiten für die Eingabe von Suchen und die Anzeige von Ergebnissen erstellt werden müssen.