2010-09-09 6 views

Antwort

27

Die häufig verwendeten Hanzi/Kanji-Zeichen sind im Block "CJK Unified Ideographer" zwischen U + 4E00 und U + 9FFF und nehmen 3 Bytes in UTF-8. (Die japanischen Hiragana und Katakana Zeichen nehmen auch 3 Bytes.)

Es gibt jedoch auch einige sehr selten verwendete Zeichen in den Blöcken "CJK Unified Ideographs Erweiterung B" und "CJK Compatibility Ideographs Supplement", die 4 Bytes dauern in UTF-8.

Beachten Sie auch, dass chinesischer Text oft ASCII-Zeichen wie die Ziffern 0-9 enthält.

+0

+1 Wow, anscheinend haben wir chinesische Sprecher auf stackoverflow. Cool :-). – sleske

+2

Japanischer Text aus Shift-JIS enthält wahrscheinlich auch andere Nicht-Kanji-Nicht-ASCII-Zeichen, die auf Zwei-Byte-Sequenzen abgebildet werden. Und dann werden wir in Kürze die Emoji haben, die auch außerhalb der Basic Multilingual Plane stehen und so 4 Bytes ... – bobince

+2

@sleske: Nein, ich spreche * Chinesisch nicht. Ich habe viel zu viel mit Zeichencodierung gearbeitet. – dan04

2

Ja, Kanji ist U + 4e00 bis U + 9faf, UTF8 3 Byte sind U + 0800 bis U + FFFF.