Ich arbeite an einem Projekt, bei dem eine große Anzahl von RSS/Atom-Feeds überwacht wird. Ich möchte hbase für die Datenspeicherung verwenden und habe einige Probleme beim Entwerfen des Schemas. Für die erste Iteration möchte ich in der Lage sein, einen aggregierten Feed zu generieren (die letzten 100 Posts aus allen Feeds in umgekehrter chronologischer Reihenfolge).Feed Aggregator mit HBase. Wie gestaltet man das Schema?
Derzeit bin ich mit zwei Tabellen:
Feeds: column families Content and Meta : raw feed stored in Content:raw
Urls: column families Content and Meta : raw post version store in Content:raw and the rest of the data found in RSS stored in Meta
ich für die aggregierten Feed irgendeine Art von Indextabelle benötigen. Wie soll ich das aufbauen? Ist HBase eine gute Wahl für diese Art von Anwendung?
Frage Update: Ist es möglich (in hbase), ein Schema zu entwerfen, das auf Anfragen wie die unten aufgeführten effizient antworten könnte?
SELECT data FROM Urls ORDER BY date DESC LIMIT 100