2010-05-10 4 views
6

Ich laufe Solr 1.4 auf Ubuntu 10.04 (installiert über apt-get solr-tomcat) und es scheint gut zu funktionieren. Ich habe Schwierigkeiten, kohärente Informationen darüber zu finden, wie man Dokumente indexiert. Ich bin neu bei SOLR, also ertrage mich! Ich habe einen Ordner (/ mnt/Ordner), der eine freigegebene Windows-Freigabe ist, die Word- und PDF-Dateien enthält, die indiziert werden sollen. Was ist der einfachste Weg, SOLR zum Indexieren des gesamten Ordners zu bekommen?Wie indexiere ich Dokumente in SOLR?

Die Dokumentation für SOLR ist ziemlich schlecht, seine impossilbe auf jeden anständig Tutorials zu finden Dinge immer mit ihm getan, so wird jede Hilfe sehr dankbar!

S

Antwort

7

am Solr wiki Werfen Sie einen Blick, ist es eine ziemlich gründliche Dokumentation.

Insbesondere sehen die ExtractingRequestHandler, die Sie Index Binär-Dateien wie Word und PDF-Dokumenten ermöglicht. Here's an introduction zum Thema.

Wenn das Wiki nicht genug für Sie ist, gibt es auch eine great book about Solr.

+1

Lucid Link funktioniert nicht. Das Video ist jedoch auf youtube gefunden. http://www.youtube.com/watch?v=ifgFjAeTOws&list=PLsj1Ri57ZE94lISrJuy7W8COc2RNFC1Fl&index=14 – Avec

+0

nur auf das Buch Link funktioniert – orezvani

1

Ich habe die gleichen Herausforderungen mit der Kern-Dokumentation, aber ich kam in diesem sehr nützlichen Nachschlagewerk von LucidImagination, die viel, was über SOLR zu klären geholfen:

http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide

+0

Leider, dass Link funktioniert nicht mehr. –

+0

Ich denke, dies würde die oben ersetzen: http://docs.lucidworks.com/display/solr/Apache+Solr+Reference+Guide – paranza

0

reiche Dokumente bearbeitet mit Solr: http://wiki.apache.org/solr/UpdateRichDocuments

+2

Oh, nur erkannt, dass diese Methode durch das ExtractingRequestHandler ersetzt wurde, wie Mauricio vorgeschlagen. (Zitat aus solr wiki:.. _This Seite deckt die RichDocumentHandler wie erstellt von Eric Pugh und Chris Harris Solr der Tika Integration, die die RichDocumentHandler ersetzen wird bei ExtractingRequestHandler beschrieben Diese Seite wird hier für die Benutzer erhalten, die derzeit die RichDocumentHandler_ verwenden) – High6