2016-06-20 8 views
-2

Ich habe es mit einem Problem zu tun: Ich möchte eine Datenvisualisierung & Vorhersage-Infrastruktur machen.Big Data Architektur: Elasticsearch-Kibana mit Hive oder Hadoop

Ich dachte über Kibana + Elasticsearch auf Hdfs (mit ES-Hadoop), & Spark (Python) auf Hdfs für die Modellierung.

Meine Frage ist: kann ich Daten in Hdfs mit ES richtig indizieren, oder sollte ich Hive oder Spark zwischen Elasticsearch & Hdfs verwenden?

Ich weiß nicht, welche Architektur der beste Weg ist.

Antwort

0

ES-Hadoop können Sie Daten in HDFS direkt mit Elasticsearch indizieren. Wenn Sie die Daten auf dem Weg von HDFS zu ES manipulieren müssen, z. B. Suchen oder Ausfiltern von Daten basierend auf einigen Kriterien, können Sie ein Tool wie StreamSets Data Collector - siehe the blog post für ein bisschen mehr Details verwenden.

Volle Offenlegung - Ich bin der Community-Champion bei StreamSets.

+0

Ich weiß nicht, ob meine Frage explizit war ... Ich meine, ist es gut, Daten direkt auf HDFS zu indizieren oder ist es vorzuziehen, Daten mit Hive zu indizieren? –

0

Wenn Ihre Frage bezüglich des Leistungsunterschieds mit Indexierung in Bienenstock und hadoop ist .... Es wird keinen Unterschied geben. Auch im Falle von Bienenstock Daten werden in HDFS gespeichert und kann durch externe Tabellen im Bienenstock zugegriffen werden .... die Art, wie Sie die Indizes verwenden möchten, wird Ihre Wahl bestimmen .... Hive wird eine Struktur auf die Daten und Sie kann viele eingebaute Funktionen anwenden, um mit Daten zu arbeiten ...

+0

Hat Hive die in HDFS gespeicherten Daten dupliziert oder bietet juste eine Struktur auf HDFS? Ich meine, sind die Daten sowohl im Dateisystem als auch in Hive? –

+0

Wenn es eine externe Tabelle ist ... die Daten befinden sich nur in hdfs nicht dupliziert im Stocklager ... –