Ich versuche, etwas Text zu bereinigen, der mit readLines (..., encoding = 'UTF-8') in den Speicher geladen wurde.Wie entfernt man seltsame Zeichen mit gsub in R?
Wenn ich nicht die Codierung angeben, sehe ich alle Arten von seltsamen Zeichen wie:
„Die Art, wie ich zu meiner Familie reden ...... Ich würde meinen Arsch Beat bekommen TOD .... aber sie kno ich Cray Cray & lass es einfach in diesem ðŸ~œðŸ~â~º '“
Dies ist, wie es nach dem Readlines sieht (..., encoding =' UTF -8 '):
"Die Art, wie ich mit meiner Familie sprechen ...... ich würde meinen Arsch Beat zu TOD bekommen .... aber sie wissen, dass ich Cray Cray & lassen Sie es einfach bei \ xf0 \ u009f \ u0098 \ u009c \ xf0 \ u009f \ u0098 \ u009d☺“
Sie die Unicode-Literale am Ende sehen: \ u009f, \ u0098 usw.
ich kann nicht den richtigen Befehl und regulären Ausdruck finden loswerden diese. Ich habe versucht:
gsub ('[^ [: punct:] [: alnum:] [\ s]]', '', Text)
Ich habe auch versucht, die Unicode-Zeichen angibt, aber ich glauben, dass sie immer als Text interpretiert:
gsub ('\ U009', '', Text) # Unverändert