2016-07-15 15 views
-3

ich bin in einem Projekt mit zwei Phasen beteiligt und ich frage mich, ob dies ein großes Datenprojekt ist (ich bin Neuling auf diesem Gebiet)Ist dieses Szenario ein großes Datenprojekt?

In der ersten Phase ich dieses Szenario habe:

  • ich habe große amont von Daten
  • ich sie
  • ich eine Web-Anwendung erstellen müssen, um speichern, müssen zu sammeln, die Daten an die Benutzer zeigt

im zweiten p hase ich muss gespeicherte daten analysieren und erstellt bericht und einige analyse auf sie

Einige beispiel über datenmenge; an einem Tag kann ich brauche zu sammeln und zu speichern, um 86.400.000 Rekord

Nun war ich auf diese Art von Architektur zu denken:

  • colect Daten einiger asynchronen tecnology wie Active MQ und MQTT Protokoll
  • Daten zu speichern, dachte ich über eine NoSQL DB (mongo, Hbase oder andere)

Nun wäre dies meine erste Phase Probleme

Aber lösen Was ist mit der zweiten Phase?

Ich dachte über einige Big Data SW (wie Hadoop oder Funken) und einige Maschinen lernen SW; so kann ich Daten aus der DB abrufen, analysieren und bauen oder speichern in einem besseren Weg, um eine gute Berichte zu erstellen und einige spezifische Analyse tun

ich mich gefragt, ob dies der beste Ansatz ist

Wie würden Sie ein solches Szenario lösen? Bin ich auf dem richtigen Weg?

danke

Angelo

+0

http://stackoverflow.com/questions/35560823/what-is-big-data-what-classifies-as-big-data/35561146#35561146 –

Antwort

0

Definition der großen Daten von Benutzer zu Benutzer unterschiedlich. Für Google 100 TB mag es sich um kleine Daten handeln, aber für mich sind das große Datenmengen, da die verfügbaren Hardwarekomponenten unterschiedlich sind. Ex -> Google kann Cluster von 50000 Knoten haben jeden Knoten mit 64 GB RAM für die Analyse von 100 Tb Daten, so dass für sie diese nicht große Daten. Aber ich kann keinen Cluster von 50000 Knoten haben, also sind es für mich große Daten.

Das gleiche ist Ihr Fall, wenn Sie Hardware zur Verfügung haben, können Sie mit hadoop fortfahren. Da Sie die Größe der Datei, die Sie jeden Tag generieren, nicht erwähnt haben, kann ich mir über Ihren Fall nicht sicher sein. Aber Hadoop ist immer eine gute Wahl, um Ihre Daten zu verarbeiten, weil neue Projekte wie Spark, die Ihnen helfen können, Daten in weniger Zeit zu verarbeiten, und darüber hinaus Ihnen Funktionen der Echtzeitanalyse bieten. Also ist es für mich besser, wenn du Funke oder Hadoop benutzen kannst, weil du dann mit deinen Daten spielen kannst. Da Sie die nosql-Datenbank verwenden möchten, können Sie hbase verwenden, das mit hadoop zur Verfügung steht, um Ihre Daten zu speichern.

Hoffe das beantwortet Ihre Frage.

+0

Nun, es ist genau das, was ich denke ... aber ich Ich frage mich: Ist activeMQ + MQTT gut genug, um riesige Datenmengen zu sammeln (86 Millionen Datensätze am Tag bedeuten etwa 1000 Datensätze pro Sekunde)? Ich dachte daran HBase + Hadoop + Hive + mohout (mit Samsara) zu benutzen und ich denke ich bin auf dem richtigen Weg .... –

1

Wie von siddhartha beantwortet, hängt es von Kontext und Geschäftsdomäne/Fall Ihres Projekts ab, ob Ihr Projekt als bigdata Projekt markiert werden kann oder nicht.

Zum Technologie-Stack zu kommen, hat jede der von Ihnen genannten Technologien einen bestimmten Zweck. Wenn Sie beispielsweise über strukturierte Daten verfügen, können Sie eine beliebige neue Datenbank für die Altersdatenbank mit Abfrageunterstützung verwenden. NoSQL-Datenbanken sind in verschiedenen Varianten erhältlich (Spalten-, Dokumenten-, Schlüsselwert usw.). Die Technologieauswahl hängt also wiederum von der Art der Daten und des Anwendungsfalls ab, die Sie haben. Ich empfehle Ihnen, einige POCs und Technologien zu analysieren, bevor Sie die letzten Anrufe tätigen.