Ich bekomme CSV-Dateien, lesen Sie diese Dateien und schreibe sie an Cassandra. Ich mache das für viele Daten (ungefähr 10 Millionen Zeilen pro Tag) Die Dateien selbst sind ziemlich klein (von 100 bis 1000 Zeilen)Überprüfen Sie, ob Daten für viele Daten bereits vorhanden sind
Was ich tun möchte, ist zu überprüfen, bevor ich sie in die Datenbank schreibe, wenn die primäre Schlüssel, den ich einfügen möchte, existiert bereits.
Ich weiß, ich kann es mit Select count(*) from table where primary key1 = something and key2 is something else
tun.
Aber das ist langsam, ich möchte für eine ganze Datei in 1 gehen, wenn es um Daten, die bereits in Cassandra ist, zu tun, und ich will (muss) es schnell sein. Gibt es eine Möglichkeit zu erreichen, was ich will? (oder etwas Ähnliches, wie die Überprüfung pro Batch, wenn es Zeilen betrifft)
Könnten Sie schreiben Sie Tabellenschema? Insbesondere welcher Schlüssel ist eine Partition und welches Clustering (falls vorhanden)? – yurgis