UCS2 einfacher in Visual C++ zu verwenden, als UTF-Codierung. Welche Sprachen kann ich nicht in der UCS2-Codierung unterstützen?UCS2 vs UTF. Welche Sprachen können in der UCS2-Codierung nicht angezeigt werden?
4
A
Antwort
4
Nichts, was Sie wahrscheinlich sind, über oder kümmern, mehr auf den Punkt, haben Schriftarten zum. UCS2 gibt Ihnen die Basic Multilingual Plane; Sie können einen Überblick über die zugeordneten Ebene auf der Unicode-Website
- 0 - Basic Multilingual Plane
- 1 - Supplementary Multilingual Plane (alte Symbole, Klingonisch, usw.)
- 2 - Supplementary Ideagraphic Plane (CJK Unified ideographs Erweiterungen)
- 3 - Tertiary Ideographic Plane (alte chinesische Schriftzeichen finden)
- 14 - Supplementary Special-Purpose Plane (Tag-Zeichen und Variationen -?)
Natürlich, wenn Sie wirklich UTF-16-Unterstützung haben, dann können Sie auf alle diese trotzdem zugreifen, aber wenn Sie fragen, ob Sie diese ignorieren können, dann in der Praxis wahrscheinlich ja.
1
Die Unicode.org Website enthält eine index of code blocks in code order, von dem Sie, dass ab Unicode 6.0 sehen können, Ebene 1 enthält:
- Linear B Syllabary
- Linear B Ideogramme
- Aegean Zahlen
- Alt Kursiv
- Gotisch
- Ugaritic
- Deseret
- Shavian
- Osmanya
- Cypriot Syllabary
- Byzantine Musical Symbols
- Musical Symbols
- Tai Xuan Jing Symbole
- Mathematical Alphanumeric Symbols
und Ebene 2 enthält:
- Vereinheitlichte CJK-Ideogramme Erweiterung B
- CJK Kompatibilität Ideogramme Supplement
- Stichworte
- Variation Selektoren Supplement
1 Ich würde nicht vorschlagen, Nicht-BMP-Flugzeuge zu ignorieren, wie zum Beispiel für Japanisch diese Zeichen sind nicht so selten in Namen und Ignorieren Nicht-BMP ist im Allgemeinen sehr schlecht und nie empfohlen. – Artyom
@Artyom OK, danke - ich denke das sind dann Zeichen im SIP? Ja, ich stimme zu, dass es am besten ist, alles richtig zu unterstützen, aber ohne Schriftunterstützung für das SIP (und wieder habe ich noch nie etwas gesehen), wenn Sie den UTF-16-Erweiterungsbereich ignorieren, dann werden Sie nur zwei unbekannte Zeichen haben angezeigt, die nicht wie ein schrecklicher Kompromiss für die zusätzliche Entwicklungszeit scheint. – Rup
UCS-2 ist eine uralte und peinliche Antemillennium-Kodierung von 1/17 des Unicode-Repertoires. Verwenden Sie immer nur eine UTF-Codierung: alles andere ist nur gebrochen. UTF-8 ist normalerweise besser für Platzanforderungen, UTF-32 ist normalerweise besser für direkte Adressierbarkeit. UTF-16 ist das Schlimmste der beiden Welt, weil die Leute es für UCS-2 verwechseln. – tchrist