Ich denke, die Frage ist ziemlich einfach, brauche ich den Rest des Zeug in Unicode nach der Grundfläche? Welche Art von Zeug ist enthalten und wird das wirklich benötigt? (und für welche Zwecke?)Benötige ich ein zusätzliches Flugzeug?
Danke.
Ich denke, die Frage ist ziemlich einfach, brauche ich den Rest des Zeug in Unicode nach der Grundfläche? Welche Art von Zeug ist enthalten und wird das wirklich benötigt? (und für welche Zwecke?)Benötige ich ein zusätzliches Flugzeug?
Danke.
Wenn Sie beabsichtigen, etwas in China zu verkaufen, dann ist der Standard GB 18030 obligatorisch und erfordert Zeichen jenseits von BMP (Basic Multilingual Plane). Der Standard wird durchgesetzt, und um dort zu verkaufen, müssen Sie eine GB 18030-Zertifizierung bestehen.
Es gibt auch nationale Standards in Japan und Hongkong, die Zeichen jenseits von BMP erfordern. Auch wenn diese Standards nicht wie die chinesische durchgesetzt werden, könnte es hilfreich sein, sie zu unterstützen.
Also die einfache Antwort wäre: Sie brauchen etwas von dem Zeug dort.
=== 2016 ===
Das vor 7 Jahren. Jetzt reden alle über Emojis. Nun, die meisten Emojis sind jenseits von BMP :-)
Siehe complete list of character charts.
Die Zusatzzeichen enthalten zur Zeit alte Skripte. Es sei denn, Sie haben eine Anwendung, die alte Skripte wie Kharoshthi, Old Persion und Cuneiform behandeln sollte, dann wahrscheinlich nicht.
Ich denke, Sie müssen nur mit diesem Problem umgehen, wenn Sie eine UTF-8 oder UTF-16-Implementierung, die nicht abgeschlossen ist, auftreten. Einige Implementierungen von UTF-8 unterstützen keine 4-Byte-Zeichen. Dies ist die zusätzliche Ebene: die Zeichen über U + 10000. kommt mir in den Sinn.
Eigentlich benutze ich MySQL und das ist der Grund, ich frage. Ich habe mich gefragt, ob ich Binär- oder UTF-8-Tabellen verwenden soll. Vielen Dank. – Tower
Es hängt davon ab, ob Sie Ihre Daten kontrollieren oder nicht. Wenn Sie Unicode-Daten von anderen Personen als sich selbst verwenden, müssen Sie im Allgemeinen davon ausgehen, dass zusätzliche Zeichen enthalten sein können, was wiederum bedeutet, dass Sie mit 4-Byte-UTF-8, UTF-16-Ersatzzeichen und so weiter umgehen müssen.
Große Antwort!So wenige Menschen finden dieses Grundprinzip der Datenherkunft einfach nicht. – hippietrail
Sie sollten versuchen, wenn möglich, alle Unicode einschließlich zusätzlicher Flugzeuge zu unterstützen. Es gibt jetzt lebende Sprachen, die in den zusätzlichen Flugzeugen wie Miao sitzen. Andere lebende Sprachen werden in Zukunft hinzugefügt werden und einige Sprachen benötigen derzeit den ergänzenden privaten Nutzungsbereich. Dann gibt es auch was Mihai Nita in seinem answer sagte.
MySQL, beginnend mit 5.5, auch zusätzliche Ebenen.
Es ist besser, sich ein wenig Zeit zu nehmen, um Unicode vollständig zu unterstützen, damit Sie in Zukunft keine Probleme mehr haben, wenn Sie es wirklich brauchen. Und Sie wissen nicht, wer Ihre Software verwenden wird und welche Skripte sie in Zukunft verwenden werden. Die meisten Rendering-Engines, GUI-Toolkits, Browser, Betriebssysteme usw. werden dies ohne Probleme unterstützen.
Obwohl diese Frage vor einigen Jahren gestellt wurde, bin ich auf einer Suche darüber gestolpert, und seitdem haben sich die Dinge geändert. Ich beschäftige mich derzeit mit Problemen, bei denen die Programmierer entweder davon ausgingen, dass keine zusätzliche Flugzeugunterstützung erforderlich wäre, oder sie blieb ungetestet.
Jenseits des Zertifizierungsproblems enthält der Unihan IICore-Zeichensatz, der alle Han-Zeichen (Chinesisch, Japanisch, Koreanisch) der aktuellen modernen Verwendung enthält, 62 Zeichen in der Supplementary Ideographic Plane (SIP). –