Ich habe eines der Cassandra-Videos auf der DataSax Academy angeschaut. Ein Konzept, über das sie viel reden, ist die abfragebasierte Modellierung. Dies ist sinnvoll, wenn Sie Ihre Abfragen wie im KillrVideo-Beispiel im Voraus kennen.Abfragebetriebene Modellierung und Big Data
Aber in Big Data Fällen, ich hoffe, ich bin nicht der einzige zu denken, dass wir kaum wissen, welche Art von Abfragen Analysten auf die Daten 5 Monate oder ein Jahr später durchführen wird.
Wenn dies der Fall ist, was sind die besten Verfahren zum Speichern Ihrer Daten? Meine Vermutung ist, dass Sie für die erweiterte Abfrage solcher Daten wahrscheinlich Ihre Daten in Spark laden. Aber was muss ich bei der Speicherzeit beachten, um Betriebsstörungen und Probleme beim Abruf zu vermeiden? Welche Retrieval-Ansätze sind weniger problematisch?