Ich versuche arabische PDFs in Apache Solr zu suchen. Das Problem scheint zu sein, dass Tika die PDF-Datei in umgekehrter Reihenfolge (von links nach rechts) anstelle von (von rechts nach links) indexiert.Solr für Arabisch PDF's
Ich habe gefunden, Referenzen zu diesem Problem hier:
- Solr for Arabic
- How to parse arabic pdf with Tika
- http://www.linnovate.net/blog/apache-solr-search-hebrew-and-probably-arabic-documents-drupal-pdf-problem-solution
Aber ich weiß nicht, wie die neueste Version von PDFBox aufzunehmen oder ICU4J in meinem Apache solr. Mein Ordner Apache Solr Contrib/extraction/lib
enthält pdfbox-1.6.0.jar
und icu4j-4.8.1.1.jar
. Werden die genannten Dateien entfernt und durch die neuesten Bibliotheken aus den Projektseiten ersetzt, um TIKA dazu zu zwingen, sie zu verwenden?
Bitte erklären Sie, wie ich keine Erfahrung mit Java-Servlet habe. Vielen Dank!