Wir haben Kundendaten, die mit einer Firmen-ID versehen sind. Das heißt, dass sich Daten von Unternehmen niemals mit Daten anderer Unternehmen mischen würden, daher wurde dies als distkey ausgewählt.Redshift: Sollte der Sortierschlüssel den Distkey enthalten?
Sollte die Firmen-ID die erste Spalte im Sortierschlüssel sein, wenn ein Knoten mehrere tausend Firmen enthält? Oder beschränkt der distkey die Daten bereits auf ein bestimmtes Unternehmen, bevor es mit dem Scannen beginnt?
sollte der distkey eine Leistungswahl sein. Verschiedene Splitter anzulegen, bringt nichts. Es ist transparent. Es ist nicht wie Firma X kann nur zu Shard Y verbinden und schauen Sie sich ihre Daten an. –
Ich verstehe das, aber es beantwortet die Frage nicht so oder so. Wenn ich die Abfrage ausführe: 'SELECT COUNT (*) FROM Verkauf WHERE company_id = 123 'wird es wissen, welcher Knoten die Abfrage ausführen soll, aber * dann * muss es den gesamten Knoten scannen, um die Datensätze zu finden (so sollte es sein im Sortierschlüssel), oder sind die Daten, die auf dem Knoten segmentiert sind, in einzelne company_id's (sortkey wird nicht benötigt)? –