2013-11-23 9 views
5

Ich habe versucht, Nutch zu verwenden, um über die erste Seite der Domänen in meiner URL-Datei zu crawlen und dann Solr zu verwenden, um Schlüsselwörter in den durchsuchten Daten durchsuchbar zu machen. Bisher war es mir nicht möglich, etwas auf diese Weise zu erreichen, es sei denn, die beiden Seiten sind miteinander verbunden.Nutch + Solr nur auf der obersten Seite

Ich stelle fest, dass dies wahrscheinlich ein Problem der Seiten ohne eingehende Links ist und daher der PageRank-Algorithmus den Seiteninhalt verwirft. Ich habe versucht, die Parameter so anzupassen, dass der Standardwert für URLs höher ist, die nicht in der Grafik sind, aber ich bekomme immer noch die gleichen Ergebnisse.

Gibt es etwas, von dem Leute wissen, dass es einen Index über Seiten ohne eingehende Links erstellen kann?

Danke!

+1

Es ist schwer zu verstehen (könnte nur ich sein), wie Ihr erster Absatz (fetch über nutch und Inhalt in solr für die Suche) mit dem zweiten (Pagerank) zusammenhängt. Was genau versuchst du zu tun? Sobald der Inhalt in solr mit den durchsuchbaren Feldern und Kriterien konfiguriert wurde, sollte er unabhängig von Links funktionieren, außer wenn Sie etwas Linkspezifisches einrichten. – Vishal

Antwort

0

Versuchen Sie einen nutch inject-Befehl, um die URL "no-incomming-link" in die nutch DB einzufügen.

Ich denke, wenn Sie nichts in Ihren solr-Indizes sehen, liegt das daran, dass keine Daten für diese URLs in der nutch DB gespeichert sind (da nutch seine DB mit den Indizes synchronisieren wird). Das Fehlen von Daten in der Datenbank kann durch die Tatsache erklärt werden, dass die URLs isoliert sind. Daher können Sie den Befehl inject verwenden, um diese Websites einzubeziehen.

Ich würde versuchen, die interne DB zu sehen, um das nutch-Verhalten zu überprüfen, da vor dem Einfügen von Werten in die Indizes nutch Daten in seinen DBs speichert.

Das Zuweisen einer höheren Punktzahl hat keine Wirkung, da Lucene Ihnen ein Ergebnis liefert, solange die Daten im Index sind.

0

Solr liest nun standardmäßig HTML-Dateien mit Tika, das ist also kein Problem.

http://wiki.apache.org/solr/TikaEntityProcessor

Wenn alles, was Sie wollen aufgelisteten Seiten ist, gibt es einen bestimmten Grund, die Nutch Crawler zu benutzen? Oder könnten Sie einfach URLs an Solr füttern und von dort aus weitermachen?