2016-08-08 56 views
0

Ich versuche, etwas Text zu bereinigen, der mit readLines (..., encoding = 'UTF-8') in den Speicher geladen wurde.Wie entfernt man seltsame Zeichen mit gsub in R?

Wenn ich nicht die Codierung angeben, sehe ich alle Arten von seltsamen Zeichen wie:

„Die Art, wie ich zu meiner Familie reden ...... Ich würde meinen Arsch Beat bekommen TOD .... aber sie kno ich Cray Cray & lass es einfach in diesem ðŸ~œðŸ~â~º '“

Dies ist, wie es nach dem Readlines sieht (..., encoding =' UTF -8 '):

"Die Art, wie ich mit meiner Familie sprechen ...... ich würde meinen Arsch Beat zu TOD bekommen .... aber sie wissen, dass ich Cray Cray & lassen Sie es einfach bei \ xf0 \ u009f \ u0098 \ u009c \ xf0 \ u009f \ u0098 \ u009d☺“

Sie die Unicode-Literale am Ende sehen: \ u009f, \ u0098 usw.

ich kann nicht den richtigen Befehl und regulären Ausdruck finden loswerden diese. Ich habe versucht:

gsub ('[^ [: punct:] [: alnum:] [\ s]]', '', Text)

Ich habe auch versucht, die Unicode-Zeichen angibt, aber ich glauben, dass sie immer als Text interpretiert:

gsub ('\ U009', '', Text) # Unverändert

Antwort

3

der einfachste Weg, diese Zeichen, um loszuwerden, ist von utf-8 bis ascii zu konvertieren:

combined_doc <- iconv(combined_doc, 'utf-8', 'ascii', sub='')