2010-05-26 4 views

Antwort

2

Um Text in Solr zu bekommen, müssen Sie in der Lage sein, es zu extrahieren. Das Lucene Connector Framework soll genau das tun. Wenn Sie den Rohtext irgendwie anders bekommen, können Sie die DataImportHandler verwenden, um Informationen zu importieren. Wenn Sie den Text korrekt indexieren und das Schema gut konfigurieren, sollten Sie in der Lage sein, erfolgreiche Suchergebnisse zu erhalten.

+0

Wo passt der Apache Tika Filter? –

+0

Ich bin mir nicht sicher, dass es so ist. Betrachtet man die unterstützten Dokumentformate von Tika: http://tika.apache.org/formats.html, werden mehrere Microsoft-Dokumentformate unterstützt. Ich weiß nicht, welche davon für Sharepoint relevant sind. Idealerweise können Sie mit Tika Text und Metadaten aus einer Datei in einem unterstützten Format extrahieren, sodass Sie die Repository-Verarbeitung (Dateisystem, Verzeichnisse, Crawling) selbst anpassen können. Aber warum nicht den LCF benutzen? –

+0

Ja, ich habe mit LCF gearbeitet, wird LCF sich um die Volltextsuche kümmern? –