1

Ich wurde kürzlich gebeten, einen Mechanismus zu erstellen, um Daten aus unserem RDS-MySQL in nahezu Echtzeit, d. H. Innerhalb von 5 Sekunden, zu erhalten. bis 5min. Nachdem ich Lambda, Flydata und Datenpipelines gelesen hatte, wählte ich AWS Datenpipeline, da so viele Foren seinen Namen erwähnen, wenn es um fast Echtzeitdatenaufnahme geht.Was ist die Logik von mindestens 15 Minuten Intervall in AWS DataPipeline Scheduling?

Mit der AWS-Datenpipeline können wir den Auftrag planen, sodass ich die Planungsoption auswähle und ihn alle zwei Minuten ausführen lasse.

enter image description here

Hier kommt den hässlichen Teil. Es bat mich, auch eine Intervallzeit einzustellen !! sollte größer als 15 Minuten sein. Ich meine, warum sollte es? Ist es nicht in der Nähe von Echtzeit? Jetzt, als ich meine Pipeline lief Es funktionierte so. (Nach dem Einstellen eines Intervalls von 15 Minuten) enter image description here

Wie soll das in Echtzeit sein? Ich meine, AWS erkennen, dass fast Echtzeit bedeutet innerhalb von Sekunden oder mindestens einige Minuten, aber 15-17 Minuten sind ein großer Satz zurück für mich. Kann mir jemand sagen, wie ich dieses Problem überwinden kann? Ich dachte darüber nach, mehrere Pipelines zu planen und Vorbedingungen zu setzen, aber ich bin mir nicht sicher, ob es funktionieren wird. bitte helfen ...

+0

Haben Sie das gelesen? https://blogs.aws.amazon.com/bigdata/post/Tx37EJ2IDFXITB2/Introducing-On-Demand-Pipeline-Execution-in-AWS-Data-Pipeline –

Antwort

0

Ich würde Amazon Kinesis für die Arbeit mit Echtzeitdaten empfehlen.

https://aws.amazon.com/kinesis/firehose/

+0

So würde ich eine Anwendung machen müssen, die RDS abfragt jede Minute, um zu sehen, ob neue Daten kamen und dann an Kinesis Stream senden. Was ist, wenn ich jetzt nicht in die Anwendungsentwicklung eingreifen möchte? – Samhash