Wie dynamische DynamoDB Spalten in EMR Hive

Ich habe eine Tabelle in Amazon DynamoDB mit einer Satzstruktur wieWie dynamische DynamoDB Spalten in EMR Hive

{"username" : "joe bloggs" , "products" : ["1","2"] , "expires1" : "01/01/2013" , "expires2" : "01/02/2013"}

wo die Produkte Eigenschaft ist eine Liste von Produkten für den Benutzer gehören, kartieren und der Ablauf n Eigenschaften beziehen sich auf die Produkte in der Liste, die Liste der Produkte ist dynamisch und es gibt viele. Ich brauche diese Daten zu S3 in einem Format wie

joe bloggs|1|01/01/2013 
joe bloggs|2|01/02/2013

Mit hive externen Tabellen übertragen kann ich die Benutzernamen und Produkte Spalten in DynamoDB Karte, aber ich bin nicht in der Lage, die dynamischen Spalten abzubilden. Gibt es eine Möglichkeit, den org.apache.hadoop.hive.dynamodb.DynamoDBStorageHandler zu erweitern oder anzupassen, um die Daten zu interpretieren und zu strukturieren, die vom Dynamo abgerufen werden, bevor der Hive ihn aufnimmt? Oder gibt es eine alternative Lösung, um die Dynamodaten in die erste Normalform umzuwandeln?

Eine meiner wichtigsten Anforderungen ist, dass ich die Drosselung durch die dynamodb.throughput.read.percent Einstellung beibehalten, so dass ich die betriebliche Nutzung der Tabelle nicht kompromittiere.

Quelle

2012-04-11 stjohnroe

Sie sollten dies auch im offiziellen DynamoDB-Forum (https://forums.aws.amazon.com/forum.jspa?forumID=131) veröffentlichen. Amazon-Mitarbeiter reagieren auf die meisten Beiträge dort. –

@pw getan https://forums.aws.amazon.com/thread.jspa?threadID=91847 – stjohnroe

hi @stjohnroe, hast du schon eine Lösung dafür? Ich folge dieser Frage. Bitte lassen Sie mich wissen, wenn Sie irgendwelche Lösungen gefunden haben. –

Sie könnten für diesen Fall eine spezifische UDTF (benutzerdefinierte Tabellengenerierungsfunktionen) erstellen. Ich bin mir nicht sicher, wie Hive asterisk (wahrscheinlich für Ihren Fall) als Argument für die Funktion behandelt.

Etwas wie was Explode (source) tut.

Quelle

2012-04-11 20:49:04

Leider erlaubt mir der DynamoDB SerDe nicht, auf die zugrunde liegende JSON-Repräsentation zuzugreifen, und unterstützt auch keine Verweise auf Spaltennamen. – stjohnroe

Wie dynamische DynamoDB Spalten in EMR Hive

Antwort

Verwandte Themen