Ich bin in Not. Ich habe ein Korpus, das ich in eine gemeinsame Sprache umgewandelt habe, aber einige der Wörter wurden nicht korrekt in Englisch konvertiert. Daher hat mein Korpus nicht-ASCII-Zeichen wie "(U + 00F8)".Was ist der beste Weg, um Nicht-ASCII-Zeichen aus einem Text Corpus zu entfernen, wenn Sie Quanteda in R verwenden?
Ich verwende Quanteda und ich habe meinen Text mit diesem Code importiert:
EUCorpus <- corpus(textfile(file="/Users/RiohBurke/Documents/RStudio/PROJECT/*.txt"), encodingFrom = "UTF-8-BOM")
Mein Korpus besteht aus 166 Dokumenten. Nachdem ich die Dokumente auf diese Weise in R importiert habe, was wäre der beste Weg für mich, diese Nicht-ASCII-Zeichen loszuwerden?
Sie können dies mit iconv tun. Siehe diese Antwort für Details: http://stackoverflow.com/a/9935242/5151349 – mkt