2010-02-08 5 views
12

Meine Anwendung muss "verwaiste" Kombinationszeichen anzeigen. Ich würde gerne das gleiche Format wie die "offiziellen" Unicode-Diagramme verwenden, indem ich den Platzhalter mit dem gepunkteten Kreis verwende. Siehe zum Beispiel:Was ist das Unicode-Zeichen, das zum Kombinieren von Zeichen verwendet wird?

Ein schneller Scan durch die Charts und ich kam mit U + 25CC "gepunkteten Kreis" auf. Das sieht gut aus, aber der Hinweis auf diesem Zeichen liest:

zur Kenntnis, dass die Referenz Glyphe für diesen Charakter ist absichtlich größer als das gepunktete Kreis Glyphe verwendet, um zeigt Zeichen in diesem Standard kombiniert; siehe zum Beispiel 0300

Das sagt (glaube ich), dass U + 25CC nicht das richtige Zeichen ist. (Oder, wenn es ist, vielleicht nur eine schlecht formulierte Notiz.)

Also: Wenn der gepunktete Kreis auf der "Diakritischen Zeichen kombinieren" nicht U + 25CC ist, was ist der richtige Code für diesen kleinen Popel?

Ich habe versucht:

  • den Text aus dem PDF Kopieren und Inspektion, aber die Kopie im PDF deaktiviert.
  • In Gmail per E-Mail an mich selbst senden und dann den Anhang als HTML anzeigen, aber es wird in U + 0024 konvertiert ("DOLLAR SIGN"). Das bedeutet, dass entweder die Konvertierung fehlgeschlagen ist oder sie nur einige Font-Rendering-Spiele in der PDF-Datei abspielen.

[Klärung] Ich weiß, dass die U + 25CC OK sieht (eine der Schriftart unter der Annahme unterstützt), aber es klingt wie die Spezifikation sagt, dass dies das falsche Zeichen. Viele Unicode-Zeichen haben ähnliche Zeichen, sind aber semantisch unterschiedliche Zeichen. "Lateinischer Großbuchstabe A" (U + 0041) und "Griechischer Großbuchstabe Alpha" (U + 0391) werden für die meisten Schriftarten identisch aussehen, aber sie haben unterschiedliche semantische Bedeutungen und sind nicht austauschbar.

+0

Die meisten Schriftarten enthalten tatsächlich eine gepunktete Kreisglyphe, falls eine für das Alphabet usw. benötigt wird. Aber Glyphen müssen nicht auf Codepunkte abgebildet werden!Viele Schriftarten ordnen solche internen Glyphen dem Abschnitt für die private Verwendung von Unicode zu, was bedeutet, dass sie sich wahrscheinlich von Schriftart zu Schriftart stark unterscheiden. So können Sie es möglicherweise mit Low-Level-Schriftart zugreifen. Es kann jedoch auch sein, dass verschiedene Schriftarten es anders implementieren, so dass es möglicherweise nicht einmal möglich ist, die Glyphe zu finden, die mit allen Schriftarten funktioniert, die einen haben. '25CC' ist wahrscheinlich der Weg zu gehen. – hippietrail

Antwort

6

Ich glaube nicht, dass es ist offizieller Platzhalter Charakter. So wie ich diese Notiz gelesen habe, haben sie U+25CC willkürlich ausgewählt, nur für Anzeigezwecke. Dann, in the chart, wo der "echte" gepunktete Kreis aufgeführt ist, haben sie es ein wenig größer gemacht, um zu betonen, dass es nicht wird als Platzhalter dort verwendet. (Oder vielleicht haben sie es in den anderen Diagrammen geschrumpft, wie Sie sagten, die Anmerkung schlecht formuliert.)

Was auch immer der Fall, ich keinen Grund, nicht U+25CC als Ihre Platzhalter zu verwenden.

+0

Klingt vernünftig. Vielen Dank! –

2

Probieren Sie dies aus: Erstellen Sie eine leere HTML-Datei, kopieren Sie den Text und laden Sie in Firefox. Zeigt, wie erwartet (obwohl ich habe nicht erwartet, Raum + kombiniert Charakter wirklich korrekt angezeigt werden):

<html> 
<body> 
<font size="24pt"> 
&#x25CC;&#x0300; 
&#x25CC;&#x0301; 
&#x25CC;&#x0302; 
&#x25CC;&#x0303; 
<br/> 
&#x0041;&#x0300; 
&#x0041;&#x0301; 
&#x0041;&#x0302; 
&#x0041;&#x0303; 
<br/> 
&#x0020;&#x0300; 
&#x0020;&#x0301; 
&#x0020;&#x0302; 
&#x0020;&#x0303; 
</font> 
</body> 
</html> 
+2

Ich habe meine ursprüngliche Frage um eine Klarstellung ergänzt. Ich erkenne, dass U + 25CC korrekt aussieht, aber es klingt, als wäre es nicht der richtige Charakter, semantisch gesprochen, gemäß der Spezifikation. –