Es gibt eine Liste Zeichenfolge twitter Text Daten, zum Beispiel die folgenden Daten (tatsächlich gibt es eine große Anzahl von Text, nicht nur diese Daten), Ich möchte den ganzen Benutzernamen nach @ und URL-Link im Twitter-Text extrahieren, zum Beispiel: galaxy5univ und url link.Python zum Extrahieren der @ Benutzer und URL-Link in Twitter Textdaten mit Regex
tweet_text = ['@galaxy5univ I like you',
'RT @BestOfGalaxies: Let's sit under the stars ...',
'@jonghyun__bot .........((thanks)',
'RT @yosizo: thanks.ddddd <https://yahoo.com>',
'RT @LDH_3_yui: #fam, ccccc https://msn.news.com']
mein Code:
import re
pu = re.compile(r'http\S+')
pn = re.compile(r'@(\S+)')
for row in twitter_text:
text = pu.findall(row)
name = (pn.findall(row))
print("url: ", text)
print("name: ", name)
Durch den Code in einer großen Anzahl von Twitter-Daten zu testen, habe ich bekam, dass meine zwei Muster für URL und Namen beide falsch sind (obwohl in einigen twitter Text Daten sind richtig). Habt ihr einige Dokumente oder einen Link zum Extrahieren von Namen und URL von Twitter-Text im Fall von großen Twitter-Daten.
Wenn Sie Tipps zum Extrahieren von Name und URL von Twitter-Daten haben, bitte sagen Sie mir, danke!
'pn = re.compile (r '@ ([a-zA-Z0-9 _] +)')' – mic4ael
Danke für Ihren Kommentar, Sie wissen, es gibt eine große Anzahl von Namen Daten in den Twitter-Daten. Manchmal enthält der Name einige Sonderzeichen wie #% ^, nicht nur a-zA-Z0-9_. In diesem Fall, wie man es löst? – tktktk0711
fügen Sie sie einfach zu der Liste der Zeichen in den eckigen Klammern hinzu, aber denken Sie daran, dass einige der Zeichen richtig maskiert werden müssen – mic4ael