Ich denke, was Sie beschrieben haben ist mehr wie der Unterschied zwischen der Optimierung für verschiedene Zugriffsmuster (sequentiell, Batch vs Direktzugriff) als der Unterschied zwischen Durchsatz und Latenz im reinsten Sinne.
Wenn ich an ein System mit hoher Latenzzeit denke, denke ich nicht darüber nach, auf welchen Datensatz ich zugreife, sondern dass der Zugriff auf einen beliebigen Datensatz hohe Gemeinkosten verursacht. Der Zugriff auf nur das erste Byte einer Datei aus HDFS kann ungefähr eine Sekunde oder länger dauern.
Wenn Sie quantitativer geneigt sind, können Sie über die Gesamtzeit nachdenken, die für den Zugriff auf eine Anzahl von Datensätzen N erforderlich ist, wie T(N)=aN+b
. Hier repräsentiert a
den Durchsatz und b
repräsentiert die Latenz. Mit einem System wie HDFS ist N oft so groß, dass b
irrelevant wird und Kompromisse, die einen niedrigen a
begünstigen, sind vorteilhaft. Vergleichen Sie das mit einem Datenspeicher mit niedriger Latenzzeit, bei dem oft nur ein einzelner Datensatz gelesen wird, und dann ist die Optimierung für niedrige b
besser.
Damit ist Ihre Aussage nicht inkorrekt; es ist definitiv richtig, und es ist oft der Fall, dass Batch-Access-Stores hohe Latenz und hohen Durchsatz haben, während Random-Access-Stores niedrige Latenz und niedrigen Durchsatz haben, aber das ist nicht immer der Fall.
sieht gut aus für mich. – Tariq