Ich möchte einige häufig vorkommende Phrasen mit Lucene bekommen. Ich erhalte einige Informationen aus TXT-Dateien, und ich verliere viel Kontext, weil ich keine Informationen für Phrasen z. "Information Retrieval" wird als zwei separate Wörter indiziert.Wie man häufig vorkommende Phrasen mit Lucene bekommt
Wie erhält man die Sätze so? Ich kann nichts Nützliches im Internet finden, alle Ratschläge, Links, Hinweise, besonders Beispiele sind willkommen!
EDIT: Ich speichere meine Dokumente nur durch Titel und Inhalt:
Document doc = new Document();
doc.add(new Field("name", f.getName(), Field.Store.YES, Field.Index.NOT_ANALYZED));
doc.add(new Field("text", fReader, Field.TermVector.WITH_POSITIONS_OFFSETS));
weil für das, was ich die wichtigsten tue der Inhalt der Datei ist. Titel sind zu oft überhaupt nicht beschreibend (z. B. habe ich viele wissenschaftliche PDF-Dokumente, deren Titel Codes oder Zahlen sind).
Ich brauche verzweifelt Top-Phrasen aus Textinhalten zu indizieren, gerade jetzt sehe ich, wie viel diese einfache "Sack von Wörtern" Ansatz ist nicht effizient.
Ja genau, was ich brauche, ist ngrams .... Ich hatte gehofft, ich werde nicht zu viel ins NLP gehen müssen:/..aber kann ich dich bitte fragen, bevor ich gehe In diesem Buch Kapitel, wenn ich Werkzeuge benutze, die Sie mir empfohlen haben (und wenn ich sowieso handhabe), werden ngrams während der Suchzeit, nicht während der Indexzeit gefunden? Kann ich als das Endergebnis einen Index mit allen indizierten Indexbegriffen erhalten und häufige ngrams? Weil ich einige Konzept zusammenpassend mit Ontologie mache, und es wäre die beste Lösung, es so zu haben (wenn möglich natürlich) Danke! – Julia
+1 für das korrekte Erkennen der proble m ... :) – Favonius
@Julia: Ich denke, Sie können die ShingleFilterFactory während der Indizierung anwenden. Und vielleicht können Sie Luke (http://wiki.apache.org/solr/LukeRequestHandler) zum Anzeigen der Ergebnisse verwenden. Hoffe, du hast jetzt genug, um dich in Gang zu bringen. –