Disclaimer - diese Frage ist nicht Arbeit noch Akademie bezogen, es ist nur Ideen und Ansätze in Bezug auf Big Data zu verstehen.Big Data Modifizierung stardegies
Schlage vor, dass ich eine Datenbank mit 10 Bil Aufzeichnungen über Flüge rund um die Welten habe. 10% bis 20% werden jede Minute aktualisiert - die Aktualisierung könnte entweder eine Änderung der Abfahrt/Ankunft oder irgendein anderer relevanter Parameter des Fluges sein.
Alle Daten aus der Datenbank werden in einem Cache auf einem anderen Rechner aktualisiert (nennen wir es "The Cache Machine").
Tausende von Clients fordern Daten vom Cache-Rechner an.
Meine Fragen sind wie folgt:
1.How kann ich veraltete Daten in den Cache-Maschine zu vermeiden, wenn der db eine aktualisierte Daten jede Minute hat?
2. Was wäre der effizienteste Weg für die Clients, den Cache-Rechner aufzurufen? Ist die Tatsache, dass die Cache-Maschine eine erhebliche Menge an Daten enthält und mehrere Clients auf die Gleichzeitigkeit der Maschine zugreifen, ein asynchroner Ansatz erforderlich?
3. Soll ich ein RDBMS für meine DB verwenden? Wenn die Daten in einer solchen DB gehalten werden, können Abfragen von verschiedenen Tabellen lange dauern.
Versuch, diese Fragen selbst zu beantworten, würde ich sagen, dass:
1.
A.i jede Minute beseitigen, kann der Cache-Maschine und dann alle Daten aus der DB abrufen. Meine Daten werden frisch sein, aber eine solche Abfrage könnte schmerzhaft langsam sein.
ODER
b.i den Zustand jedes Element in dem Cache in regelmäßigen Abständen überprüfen, aber es könnte meine DB ersticken.
2.Ich kann Warteschlangenanfragen haben, damit sich die Clients nicht gegenseitig stören.
3.RDBMS wäre keine gute Option für diese Datenmenge. Eine Schlüssel/Wert-DB könnte für diese Art von Daten funktionieren.
Ich bin nicht sicher, wie ich diese Fragen beantworten sollte, und würde mich über alle guten Punkte oder Erklärungen freuen, wie man mit einem solchen Szenario umgeht.