Gibt es Zeichenkodierungen, die auf Consumer-Geräten (im Gegensatz zu Mainframes) üblich sind und die Buchstaben A-Za-z0-9
anders als ASCII darstellen?Codierung, die sich von ASCII unterscheidet, auch für Buchstaben
Derzeit denke ich über eine Java-Anwendung, also frage ich mich, ob ein zufälliger Benutzer einiger Java-Software in einem Land mit defaultCharset
so berichtet werden könnte, dass "AZaz09".getBytes()
etwas anderes zurückgibt "AZaz09".getBytes("UTF-8")
. Ich versuche herauszufinden, ob ich bestimmte Kompatibilitätsprobleme angehen muss, die sich aus einem anderen Verhalten in dieser Hinsicht ergeben könnten.
Ich weiß, dass EBCDIC historisch das Paradebeispiel für eine ASCII-inkompatible Codierung wäre. Aber wird es auf irgendwelchen neuen Verbrauchergeräten oder nur IBM Mainframes und Vintage Computern verwendet? Bleibt das EBCDIC-Erbe in den gemeinsamen Codierungen einiger Länder bestehen?
Ich weiß auch, dass UTF-16 ist ASCII-inkompatibel, und es ist ziemlich üblich, Dateien so auf Windows zu kodieren. Aber soweit ich das beurteilen kann, ist das immer nur Dateiinhalt, nicht das Standard-Gebietsschema der Anwendung. Ist es Benutzern möglich, ihre Windows-Maschine so zu konfigurieren, dass UTF-16 als System-Codepage verwendet wird, ohne dass mindestens die Hälfte der Anwendungen beschädigt wird?
Soweit ich das beurteilen kann, bilden alle vor Unicode verwendeten Muti-Byte-Kodierungen in Asien immer noch den ASCII-Bereich 00-7F auf etwas ab, das zumindest für die Buchstaben und Ziffern mit ASCII kompatibel ist. Wird noch eine asiatische Codierung verwendet, die mehr als ein einzelnes Byte für seine Codepoints verwendet? Oder vielleicht auf einem anderen Kontinent?
Vielen Dank für die Auflistung. Leider habe ich Probleme zu entscheiden, wie häufig diese Zeichensätze als Standardzeichensatz für Anwendungen verwendet werden. Ich habe noch keine Statistiken zur Codepage-Prävalenz oder ähnlichem gefunden. Die IBM Seiten klingen wie DOS oder Mainframe. JIS X 0212 wurde/wird anscheinend hauptsächlich in EUC-JP verwendet, das ASCII-kompatibel ist. ISO-2022-CN kann nur zur Decodierung verwendet werden. – MvG