Gibt es Leistungsvergleiche (echte), die Stinger vs Impala vs Drill vergleichen? Auch, was bevorzugt wird - mein Anwendungsfall wird hauptsächlich auf interaktive Ad-hoc-Abfragen auf Hive basieren. Vielen Dank.Leistung von Apache Drill
Antwort
Es gibt einige Leistungszahlen auf der Website http://allegro.tech/fast-data-hackathon.html. Im Allgemeinen sehen wir, dass Drill und Impala in der Leistung für die interaktiven Abfragen vergleichbar sind, wobei die Unterscheidung von Drill die Fähigkeit ist, ohne Metadatendefinitionen abzufragen, sowie die einfache Handhabung der Arbeit mit JSON-Daten.
Beachten Sie, dass diese Tests auf viel älteren Versionen in Drill wie 0,8/0,9 (auch nicht für die Datenlokalisierung geeignet konfiguriert) sind. Jetzt ist Drill 1.1 mit vielen Verbesserungen an SQL (Fensterfunktionen usw.) und Leistung.
Sie können Benchmark nicht so machen, es ist sinnlos und Sie sollten einem solchen Benchmark niemals trauen.
Alles hängt von Ihren eigenen Daten ab, Sie haben JSON-Dateien? bevorzuge Bohrer. Sie möchten mehr als 1 TB abfragen, bevorzugen Sie Hive und so weiter.
Sie können auch Dateiformat, JSON, Kudu, Parkett oder ORC betrachten.
Dann kommt die Optimierung, Hive + Tez scheint besser für Parrarel Abfragen, aber sehr langsam für einzelne Abfrage. Während Impala das Gegenteil ist (MapReduce versus MassiveParrelelProcessing).
Außerdem möchten Sie die Hardware-Ressource, Disk SSD oder nicht usw. betrachten ..
Ich empfehle, mit Apache Drill + JSON-Datei zu starten, dann versuchen Apache Drill mit Parkett oder ORC.
Wenn Sie Hilfe benötigen, beschreiben Sie genau, was Sie haben (Daten + Hardware) und was Sie wollen.
Hallo Thomas, ich versuche große Drill-Abfragen auf einem einzigen Knoten mit 512 GB RAM und 48 CPUs auszuführen. Die Abfrage dauert zu lange, um für ca. 30 GB Daten ausgeführt zu werden. Es dauert mehr als eine Stunde, um alle Datensätze zu aggregieren. Hast du Einstellparameter, die ich überprüfen muss? –
1 Knoten? Sie müssen wissen, was ist Drill, wie PrestoDB, Impala ... es ist eine MPP massiv parallelen Verarbeitung-Engine, so ist es besser, mehrere Knoten haben ^^ –
Da wir 48 CPUs haben, können wir parallel zwischen diesen? –
Vielen Dank für Ihre Antwort, was sind Ihre Ansichten über Stinger.next? Wie vergleicht es mit Drill? Irgendwelche Benchmarks zu bestimmen, welche schneller ist? – Sai
Kann der Drill auch beim Umgang mit TB-Datensätzen ausgeführt werden? Ich habe gelesen, dass Impala und Presto nicht für komplizierte Abfragen großer Datensätze geeignet sind. – Sai