Ich benutze pyspark 1.6.0.Spark Streaming - Verarbeitung binärer Datendatei
Ich habe vorhandenen Pyspark-Code, um Binärdatei aus AWS S3-Bucket zu lesen. Anderer Spark/Python-Code analysiert die Bits in den Daten, um sie in int, string, boolean usw. umzuwandeln. Jede Binärdatei hat einen Datensatz mit Daten.
In PYSPARK las ich die Binärdatei mit: sc.binaryFiles ("S3N: // .......")
Dieser große arbeitet, wie es ein Tupel von (Dateiname und das gibt Daten), aber ich versuche eine äquivalente PYSPARK Streaming API zu finden, um die Binärdatei als Stream zu lesen (hoffentlich auch der Dateiname).
Ich habe versucht: binaryRecordsStream (Verzeichnis, RecordLength)
aber ich konnte diese Arbeit nicht bekommen ...
Kann einige Lichter jemand teilen, wie PYSPARK Streaming Binärdaten Datei lesen?