Wie Unicode-Text mit Nltk zu tokenisieren?

Ich versuche, eine CSV in einen DataFrame zu laden und es für NLP zu verwenden. Ich erhalte eine UnicodeDecodeError:Wie Unicode-Text mit Nltk zu tokenisieren?

import pandas as pd 
import nltk 
df = DataFrame(pd.read_csv('1459966468_324.csv')) 
df['tokenized_sents'] = df.apply(lambda row:nltk.word_tokenize(row['sentences']), axis=1) 


UnicodeDecodeError: 'ascii' codec can't decode byte 0xe2 in position 29: ordinal not in range(128)

Gibt es eine Möglichkeit Unicode-Text mit

Quelle

2016-04-06 Istvan

Wie, 'pd. read_csv ('1459966468_324.csv', encoding = 'utf8') 'wenn Ihre Datei UTF8 ist? – Boud

Ja, die Datei ist UTF-8 – Istvan

Verwenden encoding Argument zu verarbeiten Pandas zu sagen, wie die Datei zu analysieren:

pd.read_csv('1459966468_324.csv', encoding='utf8')

Quelle

2016-04-13 02:41:58 Boud

Wie Unicode-Text mit Nltk zu tokenisieren?

Antwort

Verwandte Themen