Wir arbeiten an einem Datawarehouse für eine Bank und haben ziemlich genau das Standard-Kimball-Modell von Staging-Tabellen, ein Sternschema und eine ETL verwendet, um die Daten durch den Prozess zu ziehen.Struktur im Staging-Bereich des Data Warehouse
Kimball spricht über die Verwendung der Staging-Bereich für den Import, Reinigung, Verarbeitung und alles, bis Sie bereit sind, die Daten in das Sternschema zu setzen. In der Praxis bedeutet dies in der Regel, dass Daten aus den Quellen in eine Reihe von Tabellen mit wenig oder keiner Modifikation hochgeladen werden, gefolgt von der wahlweisen Übernahme von Daten durch Zwischentabellen, bis sie bereit sind, in das Sternschema zu gehen. Das ist eine Menge Arbeit für eine einzige Entität, keine einzige Verantwortung hier.
Bisherige Systeme Ich habe auf gearbeitet hat, eine Unterscheidung zwischen den verschiedenen Gruppen von Tabellen vorgenommen, soweit aufweist:
- Hochladen von Tabellen: raw Quellsystem Daten, unmodifizierten
- Ablagetische: Zwischenverarbeitung, typisiert und gereinigt
- Lagertische
Sie können diese in separaten Schemas bleiben und dann gelten unterschiedliche Richtlinien für die Archivierung/Backup/Sicherheit usw. Einer der anderen Männer hat sich auf einem Lager gearbeitet, wo es eine StagingInput und einem StagingOutput, ähnliche Geschichte . Das Team als Ganzes hat viel Erfahrung, sowohl im Datawarehouse als auch anderswo.
Trotz allem scheint Kimball und das Internet absolut nichts zu schreiben, was die Staging-Datenbank strukturieren könnte. Man würde vergeben, wenn man glaubt, dass Mr. Kimball uns alle mit der Inszenierung als diesen großen, dunklen, unstrukturierten Datenpool arbeiten lassen würde.
Während es natürlich ziemlich offensichtlich ist, wie man vorgeht, wenn wir dem Staging-Bereich etwas mehr Struktur hinzufügen wollen, scheint es sehr seltsam, dass nichts darüber geschrieben zu sein scheint.
Also, was machen die anderen da draußen? Ist nur dieses große unstrukturierte Chaos inszeniert oder haben die Leute einige interessante Designs?
Neugierig, ein Bereich, an dem sich niemand zu interessieren scheint, der jedoch jedes BI-Projekt jeder Größenordnung betrifft. Ich denke, dass die Unterscheidung zwischen Upload und Inszenierung uns zumindest eine gewisse Struktur geben wird. – NeedHack