I-Daten verarbeitet mit pySpark
und sqlContext
die folgende Abfrage verwenden:Daten speichern als Textdatei von Funken zu hdfs
(sqlContext.sql("select LastUpdate,Count(1) as Count" from temp_t)
.rdd.coalesce(1).saveAsTextFile("/apps/hive/warehouse/Count"))
Es ist in folgendem Format gespeichert:
Row(LastUpdate=u'2016-03-14 12:27:55.01', Count=1)
Row(LastUpdate=u'2016-02-18 11:56:54.613', Count=1)
Row(LastUpdate=u'2016-04-13 13:53:32.697', Count=1)
Row(LastUpdate=u'2016-02-22 17:43:37.257', Count=5)
Aber ich will Speichern Sie die Daten in einer Hive-Tabelle als
LastUpdate Count
2016-03-14 12:27:55.01 1
. .
. .
Hier ist, wie ich die Tabelle erstellen in Hive:
CREATE TABLE Data_Count(LastUpdate string, Count int)
ROW FORMAT DELIMITED fields terminated by '|';
Ich versuchte viele Optionen, war aber nicht erfolgreich. Bitte helfen Sie mir dabei.
danke, verwendet der gleiche Ansatz..aber die Daten werden gespeichert als 2016-03-14 12: 27: 55.01 2016-02-18 11: 56: 54.613 \t 1 nicht als Tabellenformat ... mit Spaltennamen und ich kann nicht abfragen wie wir auf Tabelle ex: dl commands – Prasad
können Sie bitte ein Beispiel dl Befehle, die hier nicht funktionieren würde? –