ich meinen Text so bearbeiten möchten:Python - Gruppe Sequential Array Mitglieder
arr = []
# arr is full of tokenized words from my text
Zum Beispiel:
"Abraham Lincoln Hotel is very beautiful place and i want to go there with
Barbara Palvin. Also there are stores like Adidas ,Nike , Reebok."
Edit: Grundsätzlich möchte ich durch die Verwendung istitle Eigennamen und Gruppen sie erkennen() und isAlpha() in für statement wie:
for i in arr:
if arr[i].istitle() and arr[i].isAlpha
In dem Beispiel arr bis zum nächsten Wort hat nicht sein erstes Brief Großbuchstaben.
arr[0] + arr[1] + arr[2] = arr[0]
#Abraham Lincoln Hotel
Das ist, was ich mit meinem neuen arr will:
['Abraham Lincoln Hotel'] is very beautiful place and i want to go there with
['Barbara Palvin']. ['Also'] there are stores like ['Adidas'], ['Nike'],
['Reebok'].
„auch“ ist für mich nicht Problem es sehr nützlich sein, wenn ich versuche, mit meinem Datensatz zu entsprechen.
Mögliche Duplikat [Finding Die richtige Substantive mit NLTK WordNet] (http://stackoverflow.com/questions/17669952/finding-proper-nouns-using-nltk-wordnet) – Selcuk
Ich war alized Wort gefunden Ich möchte einen einfachen Python-Code, der immer die richtigen Namen zurückgibt, ohne sie zu gruppieren, aber trotzdem danke. –
Sie können einen * einfachen Python-Code * nicht verwenden, um korrekte Namen zurückzugeben. Es ist nicht so einfach und Sie müssen 'NTLK' verwenden, um es zu erstellen. –