Das Teilen einer JavaScript-Zeichenfolge in "Zeichen" kann trivial erfolgen, aber es gibt Probleme, wenn Unicode wichtig ist (und Sie sollten sich um Unicode kümmern).Split JavaScript Zeichenfolge in Array von Codepunkten? (unter Berücksichtigung von "Ersatzpaaren", aber nicht "Graphem-Clustern")
JavaScript behandelt native Zeichen als 16-Bit-Entities (UCS-2 or UTF-16), aber Unicode-Zeichen außerhalb der BMP (Basic Multilingual Plane) nicht zulässig.
Um mit Unicode-Zeichen jenseits der BMP umgehen zu können, muss JavaScript "surrogate pairs" berücksichtigen, was nativ nicht gemacht wird.
Ich bin auf der Suche nach einer js Zeichenfolge nach Codepunkt zu teilen, ob die Codepunkte ein oder zwei JavaScript "Zeichen" (Code-Einheiten) benötigen.
Je nach Bedarf, Spaltung von codepoint möglicherweise nicht genug sein, und man könnte durch „grapheme cluster“ geteilt werden soll, wo ein Cluster ein Basis-Codepunkt von allen seines nicht-Abstand Modifikator Codepoints, wie combining accents and diacritics gefolgt ist.
Für die Zwecke dieser Frage brauche ich keine Aufspaltung durch Graphem-Cluster.
Eine moderne Lösung zum Iterieren über einen String unter Berücksichtigung von Ersatzpaaren finden Sie unter: https://stackoverflow.com/questions/1966476/javascript-process-each-letter-of-text/36392879#36392879 – hippietrail