2012-03-26 13 views
0

Ich habe nutch 1.4 zum Crawlen von Webseiten und indizierten Daten zu solr 3.5 verwendet. das war erfolgreich. Ich habe Luke benutzt, um die Indexdaten zu überprüfen und fand heraus, dass 1678 Dokumente abgerufen wurden. aber als ich eine Abfragezeichenfolge (nur ein paar Schlüsselwörter) in der Solr-Schnittstelle für die Suche eingegeben habe, wurden alle 1678 Dokumente abgerufen. Das ist seltsam, da die meisten abgerufenen Webseiten diese Schlüsselwörter überhaupt nicht enthalten.Suche mit allen gefundenen Dokumenten

Eine Idee für dieses Problem?

Vielen Dank.

Donner

+1

Es könnte alles sein. Können Sie einige Details hinzufügen? Ihre "schema.xml" zum Beispiel und die Abfrage, die Sie versuchen. Danke – javanna

+0

was ich gecrawlt habe, ist eine medizinische Bibliothek Website. Es enthält hauptsächlich medizinische Begriffe und Terminologien. Zum Beispiel habe ich den Suchbegriff "Clinical Allegy & Clinical Immunology" eingegeben, solr gibt alle 1678 Dokumente zurück. Vielen Dank! – thunder

+0

Übrigens habe ich 'schema.xml' direkt von Nutch 1.4 kopiert, das sich unter nutch_home/runtime/local/conf befindet. Vielen Dank! – thunder

Antwort

0

Hmm, Menschen haben in der Regel "fehlendes Dokument" Typ Problem, wenn sie mit Solr suchen. Sie haben das umgekehrte Problem :)

Sie sollten in der Lage zu sehen, warum das passiert, unmittelbar nachdem Sie Ihren Index mit Luke öffnen. Das Standardsuchfeld mit Nutchs Schema ist Inhalt. Wenn Sie also nur Suchbegriff in Solr eingeben, wird das Feld durchsucht. Untersuche den Inhalt mit Luke.

Sie sind natürlich bewusst, diese wertvollen Ressourcen:
http://www.lucidimagination.com/blog/2010/09/10/refresh-using-nutch-with-solr/
http://groups.drupal.org/lucene-nutch-and-solr
http://www.mail-archive.com/[email protected]/msg02227.html