2016-08-02 22 views
-1

Dies ist meine erste Frage hier und ich wäre wirklich dankbar, wenn Sie mir helfen könnten.Übereinstimmende Datensätze zwischen Hive-Tabelle und Netezza-Tabelle

Ich habe einen SQL-Import ausgeführt, um eine Tabelle von Netezza zu Hive zu übertragen. Jetzt muss ich die Datensätze aus der Netezza-Tabelle mit der Hive-Tabelle vergleichen, um zu überprüfen, ob alle Datensätze erfolgreich in die Struktur importiert wurden. Ich muss sicherstellen, dass jeder Datensatz einer Tabelle mit einem anderen übereinstimmt und auch die nicht übereinstimmenden Datensätze finden, falls vorhanden. Mein Projektleiter hat vorgeschlagen, dass ich ein Skript verwende, um die nicht übereinstimmenden Datensätze zu filtern und in neue Tabellen einzufügen. (Verbinden Sie beide Tabellen mit einem eindeutigen Schlüssel und verwenden Sie 'wo', um die nicht übereinstimmenden Datensätze zu filtern.) Das Problem ist, dass ich neu in Hadoop bin und nicht weiß, wie ich das machen soll.

Könnte jemand bitte helfen?

Antwort

0

Die erste und wichtigste ist, dass Sie eine SELECT-Abfrage ausführen können, um die Anzahl der Empfänge in der importierten Hive-Tabelle zu zählen.

select count(*) from hive_table; 

Wenn die Zählungen zwischen der Netezza Tabelle nicht übereinstimmen und dem Bienenstock Tisch, dann müssen Sie zuerst die Protokolle überprüfen, die während des Sqoop Imports erzeugt wurden. Das wird Ihnen einen Einblick geben, warum die Recs nicht geladen wurden.

+0

Ich habe bereits einen Auswahlzähler (*) ausgeführt und die Anzahl der Datensätze stimmt überein. Gibt es eine Möglichkeit, wie ich vom Bienenstock auf den Netezza-Tisch zugreifen kann? – Shaunte

+0

Nein, das glaube ich nicht. Die Tabelle/Daten müssen auf HDFS für Hive sein, um auf sie für irgendwelche Berechnungen zuzugreifen. – JPWorks