Entfernen von richtigen englischen Wörtern aus Tweets in R

Ich arbeite auf Twitter Daten mit R und versuche, alle richtigen englischen Wörter aus dem Tweet zu entfernen. Die Idee ist, die umgangssprachlichen Abkürzungen, Tippfehler und Umgangssprache zu betrachten, die von einer bestimmten Bevölkerungsgruppe verwendet werden, deren Tweets ich aufgezeichnet habe.Entfernen von richtigen englischen Wörtern aus Tweets in R

Beispiel:

tweet <- c("Trying to find the solution frustrated af")

Nach dem oben erwähnten Betrieb würde Ich mag nur um ‚af‘

Ich dachte an die Tweets mit einem Wörterbuch Waschen (was ich herunterladen wird), aber es muss eine einfachere Alternative sein. Jede Lösung in Python würde auch helfen.

Quelle

2016-07-14 Ashwin Pai

Haben Sie versucht, mit 'aspell' in R? –

Eine weitere hunspell basierte Lösung unter Verwendung eines ziemlich neuen & interessant package:

# install.packages("hunspell") # uncomment & run if needed 
library(hunspell) 
tweet <- c("Trying to find the solution frustrated af") 
(tokens <- strsplit(tweet, " ")[[1]]) 
# [1] "Trying"  "to"   "find"  "the"  "solution" "frustrated" "af"   
tokens[!hunspell_check(tokens), dict = "en_US"] 
# [1] "af"

Quelle

2016-07-14 13:08:15 lukeA

Entfernen von richtigen englischen Wörtern aus Tweets in R

Antwort

Verwandte Themen