Es scheint mir, dass es keine Codierung, Normalisierung oder Darstellung gibt, wo ein Zeichen in Unicode jeweils ein Codepunkt wäre. Ist das richtig?
auf Sinne der Bedeutung des Wortes, abhängig. „Zeichen“ Unicode hat die Konzepte der abstrakter Zeichen (Definition 7 in Kapitel 3 des Standard: „Eine Einheit von Information für die Organisation, die Kontrolle verwendet, , oder Darstellung von Textdaten ") und codierten Zeichen (Definition 11:" Eine Zuordnung (oder Zuordnung) zwischen einem abstrakten Zeichen und einem Codepunkt "). Ein Zeichen nie ist ein Codepunkt, aber für viele Codepunkte existiert ein abstraktes Zeichen, das dem Codepunkt zugeordnet ist, wobei dieses Mapping "codiertes Zeichen" genannt wird. Aber (Definition 11, Absatz 4): "Eine einzige abstrakter Charakter auch dargestellt werden kann durch eine Folge von Codepunkten“
Gilt das auch für Basic Multilingual Plane auch?
Es gibt keinen konzeptionellen Unterschied in Bezug auf abstrakte oder codierte Zeichen zwischen dem BMP und den anderen Ebenen. Die obige Aussage gilt für alle Teilmengen des Codespaces.
Je nach Anwendung, haben Sie zwischen den Begriffen Glyphe, grapheme Cluster, grapheme, abstrakten Charakter, codierte Zeichen, Codepunkt, Skalarwert, zu unterscheiden Codeeinheit und Byte. Alle diese Konzepte sind unterschiedlich, und es gibt keine einfache Zuordnung zwischen ihnen. Insbesondere gibt es fast nie eine Eins-zu-Eins-Zuordnung zwischen diesen Entitäten.
Jedes Unicode "Zeichen" ist nur ein "Codepunkt". Die Terminologie kann jedoch verwirrend sein. "Charakter" kann auf verschiedene Arten interpretiert werden, so dass Unicode den Begriff "Codepunkt" für einen spezifischen Sinn für "Charakter" entwickelte. Nun kann eine "Glyphe" aus mehr als einem "Codepunkt" bestehen und ein "Codepunkt" kann mehr als einmal als "Codiereinheit" codiert sein. In UTF-8 ist eine "Code-Einheit" 8 Bits und in UTF-16 ist eine "Code-Einheit" 16 Bits. In UTF-32 (selten verwendet) muss nicht zwischen "Codepunkten" und "Codeeinheiten" unterschieden werden, aber selbst dann können Sie aus mehreren "Codepunkten" ein einzelnes "Glyph" machen. – hippietrail
@hippietrail Meinst du * Charakter * das * abstrakte Zeichen * im Unicode [spec Abschnitt 3.4] (http://www.unicode.org/versions/Unicode6.2.0/ch03.pdf#G2212)?Ich frage das, weil ich mich verwirre ... – Eonil
@Eonil: Ich meine erstens * Zeichen * = * Codepunkt * und zweitens bedeuten * Zeichen * = * Glyphe *. Um welche von beiden fragst du? – hippietrail