1

Wir haben MS SQL Server als primäre Option für verschiedene Datenbanken und wir führen regelmäßig Hunderte von gespeicherten Prozeduren aus. Jetzt bewegen wir uns zu einem komplett großen Datenstapel. Wir verwenden Spark für die Batch-Jobs. Aber wir haben bereits enorme Anstrengungen unternommen, um diese gespeicherten Prozeduren zu erstellen. Gibt es eine Möglichkeit, die gespeicherte Prozedur auf Spark zu verwenden? Oder gibt es eine einfache Möglichkeit, sie nach Spark zu migrieren, anstatt von Grund auf neu zu schreiben?Gespeicherte MS SQL Server-Prozeduren an Spark

Oder ein Framework wie Cloudera Verteilung/Impala adressiert diese Anforderung?

Antwort

0

Nein, es gibt nicht so weit, wie ich sagen kann. Sie können möglicherweise einen sehr ähnlichen logischen Ablauf verwenden, aber Sie werden viel Zeit und Mühe investieren müssen, um das T-SQL in Spark zu konvertieren. Ich würde empfehlen, direkt nach Scala zu gehen und keine Zeit mit Python/PySpark zu verschwenden.

Meine Faustregel für die Umwandlung alles zu versuchen, wäre zu tun, die SQL in den gespeicherten Procs wie SQL in Spark (sqlContext.sql("SELECT x FROM y")), aber beachten Sie, dass Spark-Datenrahmen unveränderlich sind so alle UPDATE oder DELETE Aktionen geändert werden müssen um einen neuen modifizierten DataFrame auszugeben.