Ich habe nutch 1.4 zum Crawlen von Webseiten und indizierten Daten zu solr 3.5 verwendet. das war erfolgreich. Ich habe Luke benutzt, um die Indexdaten zu überprüfen und fand heraus, dass 1678 Dokumente abgerufen wurden. aber als ich eine Abfragezeichenfolge (nur ein paar Schlüsselwörter) in der Solr-Schnittstelle für die Suche eingegeben habe, wurden alle 1678 Dokumente abgerufen. Das ist seltsam, da die meisten abgerufenen Webseiten diese Schlüsselwörter überhaupt nicht enthalten.Suche mit allen gefundenen Dokumenten
Eine Idee für dieses Problem?
Vielen Dank.
Donner
Es könnte alles sein. Können Sie einige Details hinzufügen? Ihre "schema.xml" zum Beispiel und die Abfrage, die Sie versuchen. Danke – javanna
was ich gecrawlt habe, ist eine medizinische Bibliothek Website. Es enthält hauptsächlich medizinische Begriffe und Terminologien. Zum Beispiel habe ich den Suchbegriff "Clinical Allegy & Clinical Immunology" eingegeben, solr gibt alle 1678 Dokumente zurück. Vielen Dank! – thunder
Übrigens habe ich 'schema.xml' direkt von Nutch 1.4 kopiert, das sich unter nutch_home/runtime/local/conf befindet. Vielen Dank! – thunder