Ich habe einen Adwords-Dump, der thailändische Schlüsselwörter enthält, die ich für einen Join mit Daten aus einer anderen DB verwenden werde.Wie manipuliere ich CSVs mit Unicode (Thai) Zeichen mit bash?
In der Theorie schnappe ich mir die Datei, schnipple die nutzlosen Zeilen oben und unten ab, säubere sie ein wenig und lade sie als neue Tabelle nach PostgreSQL hoch.
In der Praxis werden die Zeichen auf dem Weg (eigentlich von Anfang an) verstümmelt, obwohl die Datei in Excel und OpenOffice einwandfrei geöffnet wird. Das Folgende ist sowohl auf meiner lokalen Maschine (unter OSX) als auch auf dem Server (unter Ubuntu) gültig.
Zuerst habe ich bereits gesetzt meine locale auf UTF-8:
$ echo "กระเป๋า สะพาย คอนเวิร์ส"
กระเป๋า สะพาย คอนเวิร์ส
jedoch bei der CSV-Suche (nehmen wir an, es nur die obige Zeichenfolge enthält) auf der CLI gibt mir diese:
$ head file.csv
#[email protected] *02" [email protected]'4#L*
Irgendeine Idee, wo das Problem ist?