Vor kurzem habe ich nutch-1.11 und solr-4.10.4 verwendet, um einen Crawler einzurichten, ich kann Daten mit sequentiellen nutch-Befehlen crawlen, aber jetzt ist mein Problem, wie kann ich die angegebenen Daten wie Tags von Fragen von stackoverflow abrufen Zum Beispiel, dann kann ich diese Daten für die Solr-Indizierung für meinen Zweck verwenden? Ich versuche die "local/conf/nutch-site" zu konfigurieren und zu modifizieren, funktioniert aber nicht für mich, ich bin neuere für Nnutch!Wie bekomme ich die Tags von stackoverflow für solr index?
0
A
Antwort
0
Nutch ruft URLs ab. Sie können also auf eine Seite zeigen, die alle Links zu den Fragen mit diesem Tag enthalten könnte.
Zum Beispiel https://stackoverflow.com/questions/tagged/nutch?sort=newest, diese Seite enthält Links zu allen Fragen mit Nutch als Tag. Durch das Crawlen von 2 oder mehr Runden wird Nutch alle Outlinks von dieser Seite holen.