2015-04-29 5 views
5

Konnte in früheren Fragen und Antworten auf mein Problem keine richtige Antwort finden: 1. Ich habe eine 2,3 GB csv-Datei, die 2,4 Millionen Zeilen hebräischen Text enthält, derzeit codiert in ASCII. Da wir über große Datei sprechen, wäre fread vorzuziehen, aber was ist mit der Codierung? Irgendeine Idee, wie man csv-Datei liest, die in ASCII kodiert wird, um den berühmten "eingebetteten nul in der Schnur" Fehler zu vermeiden?fread (data.table in R) mit Angabe der Kodierung

Danke

+2

https://github.com/Rdatatable/data.table/issues/563 –

+0

Ich habe die Lösung ausprobiert, aber alles, was ich von R bekomme, ist> fread ("C:/Users/WINDOWS 7/IdeaProjects/PHD /classifier/phdcorpus2_processed/phdcorpus2_processed.csv ", encoding = 'UTF8') Fehler in fread (" C:/Benutzer/WINDOWS 7/IdeaProjects/PHD/Klassifikator/phdcorpus2_processed/phdcorpus2_processed.csv ",: Unbenutztes Argument (encoding = "UTF8") –

+1

Es ist keine Lösung, es ist FR auf GitHub, was bedeutet, dass Ihr Problem derzeit nicht mit der aktuellen 'data.table' Version behoben werden kann, aber die Entwickler arbeiten daran. –

Antwort

4

Ab 25. August die case linked by David Arenburg geschlossen ist, und die Funktionalität ist in der derzeit verfügbaren Version von data.table enthalten. Die Codierung Parameter kann nun verwendet werden, wenn fread Aufruf:

text <- fread(file, encoding = 'UTF-8') 

ASCII keine explizite Codierung Option, aber ASCII gilt UTF-8, so können Sie UTF-8 angeben, wenn Sie Ihren hebräischen Text lesen möchten.

+0

Ich verwende data.table 1.9.7 (bestätigt mit 'sessionInfo()') und erhalte diesen Fehler: 'Fehler in fread (" data.csv ", encoding =" UTF-8 "): Unbenutztes Argument (encoding = "UTF-8") ' – Jeff