ich persönlich immer UTF-8 verwenden. Es wird gut unterstützt und jede Sprache, jedes Betriebssystem und jeder Browser unterstützt es irgendwie. Entitäten sind schön zu zeigen, aber sie sind ein Schmerz in den Nacken zu bearbeiten. Benannte Entitäten können sich auf viele Zeichen beziehen, decken jedoch nur westliche Zeichensätze ab. Für asiatische Sprachen müssen Sie zu hexen Einheiten zurückkehren und das ist nicht schön. Hexadezimale Entitäten müssen auch decodiert oder codiert werden, indem die Unicode-Tabellen verwendet werden. Daher möchten Sie möglicherweise einen Unicode-Flavor verwenden, um Ihren Text zu kodieren.
Wenn Ihre Hauptzielgruppe Englisch ist, denken Sie vielleicht, dass Sie mit ISO-8859-1 oder CP1252 durchkommen können, aber das wäre ein Fehler. Früher oder später wird jemand Akzente oder andere fremde Zeichen schreiben und wenn das passiert, ist es zu spät, um die Kodierung zu reparieren: ein Text ist schon vermasselt.
Hier sind ein paar weitere Lektüre, die mir eine Menge Kopfschmerzen gespeichert haben, wenn sie mit charsets Herumspielen:
Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) Ist eine detaillierte Einführung in Zeichensätze und durch joelonsoftware.com ihre Nutzung und Differenz. Die Informationen dort sind ziemlich allgemein, aber nützlich, um herauszufinden, welche Kodierung gewählt werden soll.
Character sets from Browser to Database ist ein sehr praktischer und pragmatischer Artikel von SUN, der eine Menge über die verschiedenen Stellen berichtet, an denen Sie überprüfen müssen, ob Ihre Kodierung nicht in etwas anderes konvertiert wird.
What Is UTF-8 And Why Is It Important? ist ein weiterer Artikel von SUN, der tief in das Wesentliche von UTF-8 eingeht und jede Frage zu den Details von UTF-8 beantworten sollte, nachdem er die ersten 2 Artikel gelesen hat.
ich liebe, wie das klingt wie eine Prüfungsfrage ... NICHT – hop