Ich versuche diakritische Zeichen aus einem Pangram in Polnisch zu entfernen. Ich verwende Code von Michael Kaplans Blog http://www.siao2.com/2007/05/14/2629747.aspx, allerdings ohne Erfolg.Entfernen von diakritischen Zeichen in Polnisch
Betrachten Sie folgenden Pangram: "Pchnąć w tę łódź jeża lub ośm skrzyń fig.". Alles funktioniert gut, aber für den Buchstaben "ł" bekomme ich immer noch "ł". Ich nehme an, das Problem ist, dass "ł" als einzelnes Unicode-Zeichen dargestellt wird und es keine folgende NonSpacingMark gibt.
Haben Sie eine Idee, wie ich es beheben kann (ohne auf benutzerdefinierte Zuordnung in einem Wörterbuch zu verlassen - ich bin auf der Suche nach einer Art von Unicode-Konvertierung)?
des Expect 'L' alle diese Zeichen haben nur [diakritische Zeichen] (http: //en.wikipedia.org/wiki/Diacritic) (ich sehe zumindest Ogonek, akut und dot) und könnte leicht mit 'Normalize' normalisiert werden. Ich würde vorschlagen, die beiden Methoden zu kombinieren. – BalusC
Normalisieren ist .NET-Bibliothek? Sorry ... das ist Schnipsel von meinem Java-Code :) Und beim Schreiben von "Net" habe ich über Internet nachgedacht, nicht ".NET". –