Ich habe ein Programm geschrieben, um Elemente in die DynamoDB-Tabelle zu schreiben. Jetzt möchte ich alle Elemente aus der DynamoDB-Tabelle mit PySpark lesen. Gibt es Bibliotheken in Spark?Verbinden von DynamoDB aus Spark-Programm, um alle Elemente aus einer Tabelle mit Python zu laden?
Q
Verbinden von DynamoDB aus Spark-Programm, um alle Elemente aus einer Tabelle mit Python zu laden?
8
A
Antwort
1
Sie können parallel scans als Teil der DynamoDB API bis boto3 und ein Schema wie die parallele S3-Dateiverarbeitung Anwendung für PySpark beschrieben here beschrieben verwenden. Grundsätzlich, anstatt alle Schlüssel a-priori zu lesen, erstellen Sie einfach eine Liste von Segmentnummern und schreiben die maximale Anzahl der Segmente für den Scan in der map_func
Funktion für Spark fest.
Wir sind Sie in der Lage dies zu tun? – rabz100
Nein, ich habe nur verwendet, was Boto-Dokumentation ohne Funken zur Verfügung gestellt hat. –
Ich würde versuchen, diesen Code zu optimieren - https://github.com/bchew/dynamodump –