Ich arbeite mit Message Board Beiträge (in CSV
Dateien enthalten), versuchen, Daten/etc, vor dem Training Klassifikationsmodelle zu reinigen.Python Pandas CSV Import/Unicode Probleme
Dinge gehen gut waren, bis ich:
TypeError: 'float' object is not iterable
als Reaktion auf die Linie:
letters_only = ''.join([i for i in textToProcess if not i.isdigit()])
Wo textToProcess von (train["text"][i])
kommt.
Also ... wenn ich dachte, meine Daten zu überprüfen, indem sie Anrufe an:
print train.isnull().sum()
print test.isnull().sum()
Ich habe die folgende Ausgabe:
id 0
category 0
title 0
text 1
train 26
dtype: int64
id 5512
category 5512
title 5512
text 5512
train 5512
dtype: int64
Frage: Also ich nehme dies zu meinen, dass in der Testmenge 5512 Nullwerte in jeder Spalte vorhanden sind?
Das wäre seltsam, da sich die Importe usw. bis zu diesem Punkt größtenteils wie erwartet verhalten haben. Zum Beispiel können Anrufe an z.B. train["text"][0]
erzeugte die erwartete Ausgabe (nämlich Text).
Falls es hilft, meine ursprüngliche read_csv Import Anrufe sah aus wie:
train = pd.read_csv(full_train_filename, header=0, encoding = 'utf-8')
test = pd.read_csv(full_test_filename, header=0, encoding = 'utf-8')`
Ich bin nicht sicher, da eine einzelne direkte Frage ist hier, aber ich bin der Hoffnung, dass jemand etwas sieht ich falsch gemacht habe.
Alle Gedanken würden sehr geschätzt werden.
Ist möglich, teilen Sie Ihre 'csv's wenn nicht vertraulich? – jezrael
Leider halte ich das für vertraulich. Alles, wonach du suchen würdest? Ich kann einen Blick darauf werfen und darüber berichten. – JHarris
Ja. Standard ist ",", aus pandas docs: – JHarris