2016-04-12 11 views
0

Ich bin Cassandra-Cluster mit 10 Knoten laufen und große tsv [Tab getrennt Wert] -Datei täglich hochladen, jetzt möchte ich mein Projekt in Google Bigtable für bessere Leistung und geringe Latenz verschieben.
Ich habe Google Cloud große Tabelle 3 Knoten Cluster installiert, installieren HBase Plugins auf Cloud-Server [1 Knoten], wusste jetzt nicht, wie kann ich beginnen, diese TSV-Datei in BigTable hochladen.Upload-Tab separierte Datei in Bigtable

unten ist mein tsv-Format,
Spalte1 Spalte2 Spalte3 Spalte4 Spalte5 Spalte6. .
hier Spalte1 ist Primärschlüssel und Spalte2 und Spalte3 ist Clusterschlüssel in Cassandra Tabelle.
jetzt wie kann ich ähnliche Tabelle in BigTable erstellen, und was sind die Methoden zum Hochladen von TSV-Datei in BigTable.

Antwort

2

In Bigtable haben Sie einen Zeilenschlüssel. Dieser Schlüssel wird als Schnellsuchschlüssel verwendet. Bigtable speichert alle Daten in sortierter Reihenfolge basierend auf dem Zeilenschlüssel. Bigtable "Spalten" müssen Spaltenfamilien hinzugefügt werden. Sie konfigurieren die Spaltenfamilien im Voraus und Sie können zufällige Spalten/Qualifikationsmerkmale hinzufügen, wenn Sie eine Mutation senden. Hier finden Sie weitere Informationen: https://cloud.google.com/bigtable/docs/schema-design.

Sie können Google Dataflow auch zum Importieren von Daten aller Art verwenden: https://cloud.google.com/bigtable/docs/dataflow-hbase. Sie müssen eine kleine Menge Java-Code schreiben und Google erstellt einen Cluster von Computern und führt Ihren Code darauf aus. Sie haben eine Benutzeroberfläche, um Ihren Fortschritt und Ihre Protokolle anzuzeigen.

Bigtable ist auch über eine mit hbase kompatible API zugänglich. Das erlaubt Werkzeuge wie den Import von hbase via Hadoop: https://cloud.google.com/bigtable/docs/exporting-importing

Meine Vorliebe war Dataflow.

+0

Danke Solomon für Ihre Antwort, ich bin ein wenig verwirrt hier Wenn ich 2. Methode bigtable mit HBase wählen, warum brauchen wir Hadoop-Cluster? ist Hadoop-Cluster erforderlich, um Daten mit HBase-Client zu laden, oder ich einfach Daten nur mit HBase-Client laden. – Rajnish

+0

Ich gehe davon aus, dass Sie viele Daten haben und sie schnell laden wollten. Sie können die Daten definitiv mit dem hbase-Client nur über eine Hauptmethode oder über eine lokale Installation von hbase laden, die die Befehlszeilenshell mit einer tsv load-Funktion enthält. –