Wie finde ich Zeilenumbrüche in Textdateien mit Pyspark?

Ich versuche Textdatei in Funken zu laden, ich bin immer Fehler wieWie finde ich Zeilenumbrüche in Textdateien mit Pyspark?

Input row doesn't have expected number of values required by the schema. 31 fields are required while 1 values are provided.

die Dateigröße ist 20 GB. Manuell ist es nicht möglich, Zeile für Zeile zu überprüfen. Was ist die beste Option, um den Zeilenumbruch zu finden und die Datei zu laden? Ich benutze pyspark zum laden.

Quelle

2016-07-29 Miruthan

Sie können eine schnelle Überprüfung mit pySpark durchführen.

rdd = sc.textFile('filePath').map(lambda x: x.split('<yourSeparator>')) 
rdd.map(lambda x: len(x)).zipWithIndex().sortByKey().take(5)

dies wird wieder den Index der Spalte Länge und den Index davon (beginnend mit 0)

Quelle

2016-07-29 15:38:16

Ich bin mit Split für Spaltenbegrenzer, :

Versuchen Sie, Ihre Datei wie folgt laden Daten wie folgt: - 1 # | # xyz # | # 2500 2 # | # abC# | # 1500 rdd = sc.textFile ('filePath') Karte (lambda x: x.split (‘. # | # ')) Es nicht in der Lage zu übergeben Le Zeilenumbruch oder Zeilenbegrenzer. – Miruthan

Was meinen Sie damit, dass Sie mit Zeilenumbrüchen nicht umgehen können? Die Datei hat keine Zeilenumbrüche? –

Ich verwende SPLIT() -Funktion für Spaltenbegrenzer, Spaltenbegrenzer ist # | #, jetzt muss ich auch Zeilenumbrüche entfernen. Wie kann ich das machen? bitte führe mich. – Miruthan

Wie finde ich Zeilenumbrüche in Textdateien mit Pyspark?

Antwort

Verwandte Themen