Ich nehme an, Sie können Cloudera Manager und CDH (Hadoop).
ETL: Sqoop 2 SQL: Bienenstock & Impala Data Mining: Spark.
Sqoop können leicht Daten aus Ihrer alten Datenbank laden, um Hadoop (einfachen Befehl)
Sqoop import --connect [jdbc:oracle:thin:@//ip:port/servicename] --username xxx --password xxx --table xxx --hive-table
Danach werden Sie HUE verwenden können (Web-Interface SQL, Metadaten, Workflow zu schreiben), um Ihre Daten abzufragen.
Impala ist eine MPP-Datenbank von Cloudera.
Es ist leicht zu skalieren.
Zum einen für von Konzept zu beweisen, können Sie Ihre Cluster von 4 Knoten starten:
Master-Knoten (* 1): 64G Speicher Slave-Knoten (* 3): 32G Speicher
kleine Lastmenge Daten in den Datensee. Wenn Sie fertig sind, können Sie die Daten skalieren und weitere Knoten in den Datensee einfügen.