Ich arbeite auf Twitter Daten mit R und versuche, alle richtigen englischen Wörter aus dem Tweet zu entfernen. Die Idee ist, die umgangssprachlichen Abkürzungen, Tippfehler und Umgangssprache zu betrachten, die von einer bestimmten Bevölkerungsgruppe verwendet werden, deren Tweets ich aufgezeichnet habe.Entfernen von richtigen englischen Wörtern aus Tweets in R
Beispiel:
tweet <- c("Trying to find the solution frustrated af")
Nach dem oben erwähnten Betrieb würde Ich mag nur um ‚af‘
Ich dachte an die Tweets mit einem Wörterbuch Waschen (was ich herunterladen wird), aber es muss eine einfachere Alternative sein. Jede Lösung in Python würde auch helfen.
Haben Sie versucht, mit 'aspell' in R? –