2012-04-14 7 views
0

Ich habe einen benutzerdefinierten Analysator geschrieben, der einen StandardAnalyzer mit einer Länge umschließt. Jetzt möchte ich alle Begriffe herausfiltern, die nur Zahlen enthalten. Was ist der beste Weg, dies zu implementieren?Wie entferne ich Nummern aus TokenStream in Lucene?

+0

Ist es nur auf einem Feld? Wenn dies der Fall ist, können Sie einfach eine FieldBridge verwenden, um dem Dokument keine Begriffe hinzuzufügen, die nur Zahlen enthalten. – robertvoliva

+0

Was ist FieldBridge in Lucene? –

Antwort

1

Sie können für eine benutzerdefinierte TokenFilter sein. Schauen Sie sich einen der einfachsten Filter an, den LowerCaseFilter. Ich denke, Sie werden es leicht finden, Ihre eigenen Zeilen zu schreiben.

0

Sie können die PatternReplaceFilter verwenden, um mithilfe eines regulären Ausdrucks Zahlen aus dem TokenStream zu erkennen und zu entfernen.