Ich habe versucht, RSS-Seiten auf Solr mit "Feed" als Parser (und nicht Tika. In Theorie für jedes RSS-Element, ein Dokument sollte in Solr erstellt werden. And es wird erstellt aber nur vorübergehend. in der Tat, wenn die Indizierung erfolgreich abgeschlossen, löscht der Reinigungsauftrag all RSS-Elemente.Apache Nutch indexiert RSS Feed nicht richtig
Meine Vermutung, dass ist die uRL des Artikels RSS nicht findet in der crawlDB, und deshalb Löscht sie während des Cleanjobs von Solr. Kann es richtig sein?
EDIT: Ich habe festgestellt, dass alle Einträge die gleiche "Signatur" haben, weil der Fetcher so entschieden hat . Daher markieren die Deduplizierung sie als Duplikate und die Reiniger reinigen sie.
Ich versuche, dies zu ändern, aber ich verstehe nicht, warum es so konfiguriert wurde.
Danke, ich werde eine Jira-Ausgabe öffnen und StormCrawler auch überprüfen – rodi
Keine Probleme. Fühlen Sie sich frei, meine Antwort als nützlich und/oder Ihr Problem gelöst zu markieren –