Ich verwende R 2.15.0 unter Windows 7 64-Bit. Ich möchte Unicode (CJK) Text in eine Datei ausgeben.UTF-8-Dateiausgabe in R
Der folgende Code zeigt, wie ein Unicode-Zeichen auf einer UTF-8-Datei Verbindung schreiben gesendet, wie nicht arbeitet (I) erwartet:
rty <- file("test.txt",encoding="UTF-8")
write("在", file=rty)
close(rty)
rty <- file("test.txt",encoding="UTF-8")
scan(rty,what=character())
close(rty)
wie durch den Ausgang des Scan gezeigt:
Read 1 item
[1] "<U+5728>"
Die Datei wurde nicht mit dem UTF-Zeichen selbst geschrieben, sondern mit einer Art ANSI-konformem Fallback. Kann ich es beim ersten Mal richtig machen lassen (d. H. Mit einer Textdatei, die stattdessen "在" enthält), oder kann ich zusätzliche Magie anwenden, um die Ausgabe in Unicode zu konvertieren, wobei das richtige Zeichen die Codezeichenfolge ersetzt?
Danke.
[Weitere Informationen: der gleiche Code verhält sich richtig in Cygwin, R 2.14.2, während 2.14.2 auf Win7 ist auch gebrochen. Ist das an meinem Ende irgendwo?]
[Verspätete Aktualisierung] Die Probleme neigen dazu, mit * locale * statt Codierung zu sein. Ich habe Kauderwelschprobleme behoben, indem ich das Gebietsschema vorübergehend in etwas "Angemessenes" änderte. Gott helfe dir, wenn du Sprachdaten von mehr als einem Ort hast. – Patrick
vielleicht wird dies [Post] (http://stackoverflow.com/questions/11069908/r-extracting-clean-utf-8-text-from-a-web-page-scraped-with-rcurl?lq=1) werden Hilfe. – DJJ