In Intel's optimization guide, Abschnitt 2.1.3, sie führen eine Reihe von Verbesserungen an den Cache-Speicher und Speicher-Subsystem in Skylake (Hervorhebung von mir):Skylake L2-Cache verbessert durch Reduzierung der Assoziativität?
Der Cache-Hierarchie des Skylake Mikroarchitektur hat die folgenden Verbesserungen:
- Höhere Cache-Bandbreite im Vergleich zu früheren Generationen.
- Gleichzeitige Behandlung von mehr Ladungen und Speichern durch vergrößerte Puffer.
- Der Prozessor kann zwei Seiten parallel laufen, verglichen mit einem in der Haswell Mikroarchitektur und früheren Generationen.
- Reduzierung der Seitenaufteilungsbelastung von 100 Zyklen in der vorherigen Generation auf 5 Zyklen.
- L3 Schreibbandbreite von 4 Zyklen pe r Zeile in der vorherigen Generation auf 2 pro Zeile erhöht.
- Unterstützung für die Anweisung CLFLUSHOPT zum Löschen von Zeilen und Verwalten der Speicherreihenfolge von bereinigten Daten mit SFENCE.
- Reduzierte Leistungseinbußen für einen Software-Prefetch, der einen NULL-Zeiger angibt.
- L2 Assoziativität geändert von 8 Möglichkeiten zu 4 Möglichkeiten.
Die endgültige mein Auge gefangen. In welcher Weise ist eine Reduzierung der Anzahl der Möglichkeiten eine Verbesserung? An sich scheint es, dass weniger Wege strikt schlechter sind als mehr Wege. Natürlich kann es sein, dass es aus gutem Grund technische Gründe dafür gibt, warum eine Verringerung der Anzahl von Möglichkeiten ein Kompromiss sein könnte, der andere Verbesserungen ermöglicht, aber hier ist es für sich allein eine Erweiterung.
Was fehlt mir?
Hier ist [eine weitere interessante Theorie] (http://www.agner.org/optimize/blog/read.php?i=415#867): dass der Skylake-S (dh original Skylake) mehrere architektonische Veränderungen hatte in Erwartung der AVX-512 Unterstützung in den späteren Skylake-X und Skylake Xeon Linien, obwohl Skylake-S dies nicht unterstützte. Insbesondere: _ [SKL reduziert die Assoziativität auf 4] war Vorbereitung auf die Erhöhung der Cache-Größe - SKL-S-Cache ist nur ein Viertel der SKL-X-Cache mit der gleichen Organisation und reduzierte Assoziativität erlaubt Transistor Budget von massiven 1MB Cache zu reduzieren. . Nur Spekulation, aber trotzdem interessant! – BeeOnRope
@BeeOnRope: Ja, ich hatte den gleichen Gedanken nach dem Lesen [AnandTechs SKL-X Writeup] (http://www.anandtech.com/show/11550/the-intel-skylakex-review-core-i9-7900x-i7 -7820x-and-i7-7800x-tested/4), wo sie den gleichen Anspruch erheben: Reduzierte L2-Assoziativität war zumindest teilweise, um es modularer zu machen. Die Annahme, dass SKL-S durch die Verwendung des Strombudgets an anderer Stelle insgesamt schneller wird, ist möglicherweise nicht korrekt. (Es schließt es jedoch nicht aus. Es kann immer noch eine insgesamt gute oder neutrale Änderung für SKL-S sein. Und Intel hätte es nicht getan, wenn sie es für zu schlecht halten.) –