2009-08-14 2 views
4

Ich suche nach einem Beispielcode, der zeigt, wie PDF-Dokumente mit Lucene.Net und C# indexiert werden. Google hat ein paar gefunden, aber keine, die ich hilfreich finden könnte.Wie kann ich PDF-Dateien mit Lucene.Net indexieren?

+0

ich ein * Nerd * bin, ich danke Ihnen sehr. – gnovice

+0

Sie sehen, ich bevorzuge den Begriff Geek ... :) – PostMan

+0

Einige Überschneidungen mit dieser Frage http://stackoverflow.com/questions/83152/reading-pdf-documents-in-net oder genauer gesagt diese Antwort: http://stackoverflow.com/questions/83152/reading-pdf-documents-in-net/84410#84410 – Myster

Antwort

5

Aus meiner Sicht beschränkt sich Lucene darauf, einen Index zu erstellen und diesen Index zu suchen. Es liegt an der Anwendung, Dateien zu öffnen und deren Inhalt für den Index zu extrahieren. Wenn Sie also nach PDF-Dokumenten suchen, sollten Sie etwas wie iTextSharp verwenden, um die Datei zu öffnen, die Inhalte herauszunehmen und sie zur Indexierung an Lucene zu übergeben. Es gibt einige gute Beispiele für die Verwendung von Lucene auf der Dimecasts.net Website.

+0

Das ist eine mögliche Lösung ... braucht praktische Beweise, dass es tatsächlich funktioniert. –

2
StringBuilder stringBuilder = new StringBuilder(); 

PdfReader pdfReader = new PdfReader(byte[] of the .pdf); 

for (int page = 1; page <= pdfReader.NumberOfPages; page++) 
{ 
    stringBuilder.Append(PdfTextExtractor.GetTextFromPage(pdfReader, page) + " "); 
} 

(unter Verwendung von iTextSharp)

Der Rest wird nicht als der Punkt dargestellt ist.

Es gibt Code in der Produktdemo auf meiner Site, der zeigt, wie man den lucene.net Code benutzt, aber es ist ein bisschen lang hier zu posten. Hier

wird der Code wie in Bezug auf mein Produkt: https://svn.arachnode.net/svn/arachnodenet/trunk/Plugins/CrawlActions/ManageLuceneDotNetIndexes.cs Benutzername/Passwort: Öffentliche