0

So möchte ich eine gesamte DynamoDB-Tabelle zu S3 dump. Diese tutorial gibt eine gute Erklärung, wie dies zu tun ist. Gab es einen Test, es hat funktioniert ... tollSCHNELL exportieren eine Dynamo-DB-Tabelle zu S3

Aber jetzt möchte ich es auf meine Produktionsdaten verwenden, die größer ist (> 100GB). Und ich möchte, dass es schnell läuft. Offensichtlich ist der Lesedurchsatz in meiner DynamoDB-Tabelle hier ein Faktor, aber gibt es eine Möglichkeit, sicherzustellen, dass die Datenpipeline alles tut, was sie kann. Ich bin nicht sehr vertraut mit diesen, die Architekt-Ansicht nach dem Setup hat Bereiche für Instanz-Typen und Instanz-Anzahl, aber erhöht diese verringern meine Pipeline-Zeit? Das Tutorial erwähnt nichts über die Geschwindigkeit, außer dass es den Durchsatz der Tabelle angibt, die Sie verwenden wollten. Wird es basierend darauf automatisch skalieren?

Antwort

0

Die Vorlage basiert auf den Open-Source-Beispielen, die das Datapipeline-Team auf gihub hat.

Die Vorlage, auf die Sie sich beziehen, ist here.

Wenn Sie sich die Pipeline-Definition ansehen, werden Sie feststellen, dass der Export über einen Map-Reduce-Job erfolgt. Die Skalierbarkeit des Exportjobs sollte damit gehandhabt werden.

Wenn Sie weitere Informationen zur Funktionsweise von EMR mit DynamoDB benötigen, finden Sie diese unter here. Wenn Sie die Anzahl der Instanzen erhöhen, müssen Sie den Durchsatz Ihrer Tabelle entsprechend anpassen, um die Parallelität des Exports zu erhöhen.