2010-11-27 4 views
0

Ich versuche, ein Plugin für Nutch basierend auf http://sujitpal.blogspot.com/2009/07/nutch-custom-plugin-to-parse-and-add.html zu schreiben, um einen benutzerdefinierten Titelfinder zu bekommen.Benötigen Plugin, um Standardtitel zu überschreiben

Dies funktioniert gut, und das Speichern extrahierter Titel in einem neuen Feld ist kein Problem. Aber ich möchte es in Solr anstelle des Standardtitels verwenden. Das Problem ist, dass Solr mehrwertige Felder benötigt, da ich 2 Titelfelder habe.

metadata.remove ("Titel");

hat nicht funktioniert.

Ich möchte wirklich den neuen Titel anstelle der Standard-von Nutch erstellt verwenden. Irgendwelche Vorschläge?

+0

doc.removeField ("Titel"); macht den Trick. – jem

Antwort

0

Warum legen Sie Ihren Titel nicht in einem anderen Feld, so wird es richtig behandelt?

+0

Weil ich dann Inhalte aus PDFs speichern müsste, z. auch in einem anderen Bereich. Wenn Sie wissen, wie man das macht, dann teilen Sie es. – jem

+0

nicht sicher, was Sie mit Inhalten aus PDF meinen? Obwohl ich es nicht ausprobiert habe, denke ich im Indexierungs-Plugin, dass Sie den Text (roh) des PDFs bekommen können. Natürlich brauchen Sie eine Methode, um die Informationen, nach denen Sie suchen, zu extrahieren, da es sich um reinen Text handelt. Alle Formatierungen sind weg. – millebii

+0

Wenn Sie zweimal an Ihre Frage denken ... Um PDF-Inhalte in einem anderen Index zu speichern/indexieren, müssen Sie dies wissen ist PDF-Dokument zum Zeitpunkt der Indexierung. Ich würde also, wenn ich einige Metadaten zur Zeit der Analyse speichern könnte, die den PDF-Typ angibt, und ihn zur Indexierungszeit abrufen, um diese Daten in einen bestimmten Index zu bringen. – millebii