0
Ich versuche Textdatei in Funken zu laden, ich bin immer Fehler wieWie finde ich Zeilenumbrüche in Textdateien mit Pyspark?
Input row doesn't have expected number of values required by the schema. 31 fields are required while 1 values are provided.
die Dateigröße ist 20 GB. Manuell ist es nicht möglich, Zeile für Zeile zu überprüfen. Was ist die beste Option, um den Zeilenumbruch zu finden und die Datei zu laden? Ich benutze pyspark zum laden.
Ich bin mit Split für Spaltenbegrenzer, :
Versuchen Sie, Ihre Datei wie folgt laden Daten wie folgt: - 1 # | # xyz # | # 2500 2 # | # abC# | # 1500 rdd = sc.textFile ('filePath') Karte (lambda x: x.split (‘. # | # ')) Es nicht in der Lage zu übergeben Le Zeilenumbruch oder Zeilenbegrenzer. – Miruthan
Was meinen Sie damit, dass Sie mit Zeilenumbrüchen nicht umgehen können? Die Datei hat keine Zeilenumbrüche? –
Ich verwende SPLIT() -Funktion für Spaltenbegrenzer, Spaltenbegrenzer ist # | #, jetzt muss ich auch Zeilenumbrüche entfernen. Wie kann ich das machen? bitte führe mich. – Miruthan