Ich habe versucht, Nutch zu verwenden, um über die erste Seite der Domänen in meiner URL-Datei zu crawlen und dann Solr zu verwenden, um Schlüsselwörter in den durchsuchten Daten durchsuchbar zu machen. Bisher war es mir nicht möglich, etwas auf diese Weise zu erreichen, es sei denn, die beiden Seiten sind miteinander verbunden.Nutch + Solr nur auf der obersten Seite
Ich stelle fest, dass dies wahrscheinlich ein Problem der Seiten ohne eingehende Links ist und daher der PageRank-Algorithmus den Seiteninhalt verwirft. Ich habe versucht, die Parameter so anzupassen, dass der Standardwert für URLs höher ist, die nicht in der Grafik sind, aber ich bekomme immer noch die gleichen Ergebnisse.
Gibt es etwas, von dem Leute wissen, dass es einen Index über Seiten ohne eingehende Links erstellen kann?
Danke!
Es ist schwer zu verstehen (könnte nur ich sein), wie Ihr erster Absatz (fetch über nutch und Inhalt in solr für die Suche) mit dem zweiten (Pagerank) zusammenhängt. Was genau versuchst du zu tun? Sobald der Inhalt in solr mit den durchsuchbaren Feldern und Kriterien konfiguriert wurde, sollte er unabhängig von Links funktionieren, außer wenn Sie etwas Linkspezifisches einrichten. – Vishal