Kann jemand bitte bestätigen, dass alle Kanji-Zeichen in Chinesisch 3 Bytes lang in UTF-8 sind?Sind alle Kanji-Zeichen in UTF-8 3 Byte lang?
17
A
Antwort
27
Die häufig verwendeten Hanzi/Kanji-Zeichen sind im Block "CJK Unified Ideographer" zwischen U + 4E00 und U + 9FFF und nehmen 3 Bytes in UTF-8. (Die japanischen Hiragana und Katakana Zeichen nehmen auch 3 Bytes.)
Es gibt jedoch auch einige sehr selten verwendete Zeichen in den Blöcken "CJK Unified Ideographs Erweiterung B" und "CJK Compatibility Ideographs Supplement", die 4 Bytes dauern in UTF-8.
Beachten Sie auch, dass chinesischer Text oft ASCII-Zeichen wie die Ziffern 0-9 enthält.
2
Ja, Kanji ist U + 4e00 bis U + 9faf, UTF8 3 Byte sind U + 0800 bis U + FFFF.
+1 Wow, anscheinend haben wir chinesische Sprecher auf stackoverflow. Cool :-). – sleske
Japanischer Text aus Shift-JIS enthält wahrscheinlich auch andere Nicht-Kanji-Nicht-ASCII-Zeichen, die auf Zwei-Byte-Sequenzen abgebildet werden. Und dann werden wir in Kürze die Emoji haben, die auch außerhalb der Basic Multilingual Plane stehen und so 4 Bytes ... – bobince
@sleske: Nein, ich spreche * Chinesisch nicht. Ich habe viel zu viel mit Zeichencodierung gearbeitet. – dan04