2016-05-03 15 views
0

Ich analysierte .doc-Dateien mit POI und als Textdekorationen ins Spiel kamen, führte es mich zu Apache Tika. Ich kann jetzt Text mit einfachen Textdekorationen wie <i></i> extrahieren, jedoch würde ich gerne in der Lage sein, komplexere Stile zu behandeln. Mein Dokument enthält verschiedene Schriftgrößen, tiefgestellt, hochgestellt und so weiter. Gibt es eine Möglichkeit, all diese Informationen mit Tika zu bekommen? Und wenn nicht, kann mir jemand auf ein geeigneteres Werkzeug hinweisen?Gibt es eine Möglichkeit, alle Stile aus einer Doc-Datei mit Apache Tika zu erhalten?

Antwort

1

Tika behandelt nicht viel mehr als <i> und <b> im Moment, wie Sie gefunden haben. Abhängig von der Komplexität der Dokumente können Sie POIs direkt verwenden (z. B. Tikas Parser als Beispiel). Sie können auch auf der Tika-Dev-Liste ([email protected]) nachfragen, ob Interesse besteht, Tika weitere Formatierungsfunktionen hinzuzufügen, oder vielleicht ein Ticket auf unserer Jira site öffnen.

+0

POI war ein bisschen übereilt, mich wegzuschicken, denke ich. Ich habe es mit den Tika-Parsern untersucht, wie Sie es vorgeschlagen haben, und habe mich durchgesetzt. Vielen Dank! – nora