2012-04-09 7 views
1

Ich habe Tika mit solr installiert, und es funktioniert gut für arabisch pdf, gibt es ein Tutorial, um dies zu geschehen, ich habe eine ähnliche Frage zu diesem Thema gesehen und die Lösung zu integrieren ICU4J.jar, aber ich weiß jetzt nicht, was bedeutet es,Wie arabisch pdf mit Tika zu parsen

+1

Was ist die Frage? Sie sagen "* es funktioniert gut für arabisch pdf *", also bin ich mir nicht sicher, was nicht funktioniert und wofür Sie Hilfe brauchen? – Gagravarr

+0

Es funktioniert für andere Dokument-Format wie doc, odt etc ... aber für pdf es extrahiert nicht gut arabisch, ich denke, dass sie eine Lösung hier http://stackoverflow.com/questions/7834401/solr-for gefunden haben -arabisch, aber ich bin Neuling mit Java. –

Antwort

1

ICU4J hier heruntergeladen werden kann: http://site.icu-project.org/download

+0

Danke für Ihre Antwort, aber wie Sie es installieren? –

+0

WEB-INF/lib ist der Standardplatz für zusätzliche Bibliotheken (JAR-Dateien) in einer Webanwendung (wie Solr). Wenn Sie die WAR-Datei von Solr ausführen, suchen Sie nach einem Verzeichnis für gemeinsam genutzte Bibliotheken für Ihren Servlet-Container (wahrscheinlich Tomcat oder Jetty). –

+0

leider bin ich ein PHP-Programmierer und ich benutze nicht Tomcat, stattdessen benutze ich Apache2, mit Apachesolr als Server. Jede detaillierte Howto wird so viel Aprikose sein, Danke für Ihre Antwort –