Zen 3 mit 7nm oder 7nm+: Darum fehlt das Plus bei neueren AMD-Folien

CCX würde sich wie bisher auf den Kerncluster beschränken, Core Compute Die beschreibt den ganzen Chip.

Da ist klar. Die Frage ist, wie sinnvoll die Begrifflichkeit ist. Von Clustering oder Modularität zu sprechen, wenn es nur einen Cluster gibt, wirkt hat mich komisch. Bei Intel wird ja auch nicht von Cluster gesprochen, wenn es um das monolithische Design mit Ringbus geht. Oder hast du andere Kenntnisse?

Aber der Kompromiss ist, dass nur 4-Kerne miteinander kommunizieren bzw. aktuell sich einen gemeinsamen L3$ teilen, darüber hinaus muss man über Infinity-Fabric mit höherer Latenz und Stromaufnahme gehen.
Nach meiner Kenntnis sieht das im Moment so aus, dass es keine Remotezugriffe auf den L3 Cache des benachbarten CCX Moduls gibt. Die Latenz wäre ziemlich schlecht, so dass besser gleich auf den RAM zugegriffen wird. Selbst wenn es einen shared Cache gibt, auf den per IF zugeriffen wird, würde sich das Prinzip nicht ändern. Daher muss das ganze optimiert werden, damit die Vorteile des shared Caches überhaupt ausgenutzt werden können. Wenn der IF dabei erhalten bliebe, gäbe es doch weiterhin zwei Cluster?! Also zwei Cluster und die L3 Zugriffe aber trotzdem shared. Hm, klingt komisch. Für mich liegt der Ringbus hier nahe.

Genau!
lolaway2.gif

Ja, genau. Schau' dir doch mal den R5 3600 oder auch den 3900X an. Man kann allenfalls 3 (mal abgesehen von SMT) 3 Threads auf einem CCX gruppieren, um den schnellen Direct Interconntect auszunutzen. Das reicht für viele Games schon nicht mehr aus heutzutage. Wenn dann beispielsweise 3 Threads auf den Mainthread synchronisiert werden müssen, geht das bereits über den langsameren IF. Es gilt dabei das Prinzip des schwächsten Glieds in der Kette, so dass der Sync-Vorgang erst dann abgeschlossen ist, wenn alle Threads ihre Daten zurückgemeldet haben, halt auch der, der seine Daten über den IF pushen muss.

Also gilt die Aussage für bestimmte Bedingungen. Dazu gehört natürlich auch, dass der (lokale) Ring nicht zu groß ist. Das sollte bei 8 Teilnehmern jedoch kein Problem sein. Gaming als Kontext in einem Gaming-Forum ist "Ehrensache"... :D
 
Zuletzt bearbeitet von einem Moderator:

Ja, wäre er tatsächlich. Deswegen sind auch 8-Kerner von Intel mit Ringbus im MT schnellöer als gleiche 8-Kerner mit Mesh.
Das Problem ist, dass der Ringbus umso ineffizienter wird je mehr Kerne man verbinden will. Das weiß auch intel weswegen bei den Vielkern-CPUs im HEDT/Serverbereich Mesh statt Ringbus genutzt wird. Bei 8-Kernern ist der Ringbus noch dem Mesh (und dem Infinity) überlegen, da die Strategie von AMD aber offenbar von Anfang an war, viele kerne und hohe Flexibilität dahingehend anzubieten hat man von vorneherein auf den IF gesetzt auch wenn für die kleinen aktuellen Ryzens ein Ringbus performanter gewesen wäre.
 
da die Strategie von AMD aber offenbar von Anfang an war, viele kerne und hohe Flexibilität dahingehend anzubieten hat man von vorneherein auf den IF gesetzt auch wenn für die kleinen aktuellen Ryzens ein Ringbus performanter gewesen wäre.

Ist ja auch eine Kostenfrage. AMD braucht nur eine Sache basteln und deckt alles ab.
Intel muss Ringbus und Mesh nebeneinander machen.
Daher könnte ich mir vorstellen, dass Intel mit der nächsten Generation davon Abschied nehmen wird. Und offenbar dauert das, sowas zu entwickeln und auf Anhieb schnell zu sein.
Bei AMD hat das ja auch gedauert, bis Ryzen die Performance hat, die heute da ist. Und die nächsten Generationen werden da sicher noch was drauf setzen.
 
Was ist eigentlich mit der mittleren Latenz? Geht man von 2 CCX Modulen mit jeweils 4 Kernen aus, hat man 80ns inter CCX und ca. 35ns intra CCX.

2 aus 8 Threads sind 28 Kombinationen. (8 choose 2 - Wolfram|Alpha)
Davon entfallen 2 mal 2 aus 4 auf die intra CCX Kommunikation: 2 * (2 aus 4) = 2 * 6 = 12.

Das gewichtete Mittel wäre also 12/28*35ns + 16/28*80ns ~= 60.71ns.

Intels Ringbus liegt bei 45-50ns im Mittel. Das nur mal so als Vergleich. Also ja, im Mittel ist der Ringbus performanter.
 
Zuletzt bearbeitet von einem Moderator:
Daher könnte ich mir vorstellen, dass Intel mit der nächsten Generation davon Abschied nehmen wird.

Sehr wahrscheinlich - auch deswegen weil wir mittlerweile ja generell an einem Punkt sind wo "Vielkern-"CPUs massentauglich werden und der Ringbus tendentiell nachteiliger wird.
Wenn die breite Masse anfängt 8+ Kerne in neuen PCs zu verbauen und Anwendungen immer mehr Threads ausnutzen wird der Vorteil des Ringbusses immer kleiner.
 
Ja, genau. Schau' dir doch mal den R5 3600 oder auch den 3900X an. Man kann allenfalls 3 (mal abgesehen von SMT) 3 Threads auf einem CCX gruppieren, um den schnellen Direct Interconntect auszunutzen.

Wenn ich das dann aber richtig interpretiere, wird Zen3 dann ein Riesenschritt in die richtige Richtung, denn wenn ich das richig interpretiere, bedeutet die Verdoppelung der Kerne pro CCX ja dann, dass ein 8 Kerner komplett über den sehr schnellen Direct Interconnect angeschlossen ist. Da nur wenige Spiele mit mehr als 8 Kernen skalieren könnte das der Plan sein um eben in der reinen Gamingleistung dann auch an Intel vorbeizuziehen, was mit der aktuellen IPC, dem Takt und dem dann eliminierten Nachteil der hohen Latenz zwischen den Kernen auch wirklich mehr als gut gelingen würde. Wird auf jeden Fall spannend zu sehen sein.
Ich denke nicht, dass man innerhalb eines CCX die Kerne aufsplittet und dann wieder nur 4 Kerne direkt verdrahtet, da würde ich keinen Sinn drin sehen, der zu sparende Platz um 8 statt 4 Kerne in ein CCX zu packen würde wahrscheinlich kostenmäßig wenig Sinn machen.
 
@BigBoymann: Hatte Locuza ja schon ausgeführt. Eine Direktverbindung aller 8 Kerne wäre der kombinatorische Supergau. Es wird dann wohl eher auf einen Ringbus hinauslaufen. Meine Einschätzung ist, dass die Intercore Latenzen in Gaming Szenarios überschätzt werden. Wichtiger sind Cache und RAM Latenzen und die werden durch die Maßnahme verbessert. Im Prinzip kann ein Thread oder eine Gruppe von Threads auf doppelt so viel Cache zugreifen. Das wird die Speicherzugriffe mit Sicherheit ordentlich beschleunigen. Man könnte das heute schon testen, wenn man den L3 partiell abschalten könnte. Ich wollte eh demnächst meine Kontakte bei Intel nutzen, um diesbzgl. mal nachzufragen.
 
Kannst du diese Behauptung belegen?
Ja, kann ich. Du kannst dir aber auch selbst die tonnen an passenden Benchmarks ergooglen die zig Magazine und Seiten zum Thema gemacht hatten als Intel bei seinen HEDT-CPUs vom Ringbus aufs Mesh umgestiegen ist. Diese Zusammenhänge sind seit langer Zeit weitflächig bekannt. Die größten Nachteile hatte das Mesh gegenüber dem Ringbus in Spielen da (damals umso stärker) Spiele nicht viel von zig Kernen hatten (deswegen ist Broadwell und Skylake-S mit Ringbus da schneller als Skylake-X mit Mesh).

Das Argument, dass das ja nichts über IF aussagt ist Käse. Wir reden hier nicht über (natürlich unterschiedliche) Details sondern über grundlegende Herangehensweisen von Kommunikation verschiedener CPU-Bereiche untereinander. Das is wie wenn du sagst "ein steilerer Heckflügel bringt nichts in Kurven [obwohl das weitläufig bekannt und umgesetzt ist] und der Flügel von Ferrari ist sowieso ein anderer als der von Mercedes [stimmt, ändert aber nichts am Prinzip]".
 
Zuletzt bearbeitet:
Ja, kann ich. Du kannst dir aber auch selbst die tonnen an passenden Benchmarks ergooglen die zig Magazine und Seiten zum Thema gemacht hatten als Intel bei seinen HEDT-CPUs vom Ringbus aufs Mesh umgestiegen ist. Diese Zusammenhänge sind seit langer Zeit weitflächig bekannt. Die größten Nachteile hatte das Mesh gegenüber dem Ringbus in Spielen da (damals umso stärker) Spiele nicht viel von zig Kernen hatten (deswegen ist Broadwell und Skylake-S mit Ringbus da schneller als Skylake-X mit Mesh).

Absolut.
Sieht man gut an Casacade Lake Benchmarks.
In Games haben die gegen einen 3700X keine Chance und in Anwendungen zieht ein 3950X locker vorbei.
Cascade Lake ist eine einzige Enttäuschung. Kein Wunder also, dass Intel die Preise stark gesenkt hat. Und trotzdem sind sie immer noch zu teuer. Dazu die teure Plattform.
Intel müsste dringend einen Sockel 2066 Nachfolger bringen. In Sicht ist aber nichts. Vor 2022 sehe ich keinen Nachfolger auflaufen.
 
Ist wohl einfach eine Frage dessen, welcher Prozess dann wie gut verfügbar ist.

Bei Intel wird es noch eine ganze weile dauern, bis man überhaupt 10nm und damit IceLake im Desktop sieht.
Dafür haben sie erst mal neue Sicherheitslücken, die schon heute ein Argument sind auf AMD zu wechseln.
Sicherheitsluecke in CSME: Vertrauen in Intels Technologien schwindet - ComputerBase
Mal wieder ein ziemlich peinliches Statement wenn man die News von heute berücksichtigt.
 
@BigBoymann: Hatte Locuza ja schon ausgeführt. Eine Direktverbindung aller 8 Kerne wäre der kombinatorische Supergau. Es wird dann wohl eher auf einen Ringbus hinauslaufen. Meine Einschätzung ist, dass die Intercore Latenzen in Gaming Szenarios überschätzt werden. Wichtiger sind Cache und RAM Latenzen und die werden durch die Maßnahme verbessert. Im Prinzip kann ein Thread oder eine Gruppe von Threads auf doppelt so viel Cache zugreifen. Das wird die Speicherzugriffe mit Sicherheit ordentlich beschleunigen. Man könnte das heute schon testen, wenn man den L3 partiell abschalten könnte. Ich wollte eh demnächst meine Kontakte bei Intel nutzen, um diesbzgl. mal nachzufragen.

Ja, hatte ich auch so verstanden. Ist halt dann vieleicht die Frage, was bedeutet hier "explodieren". Wir werden aller Voraussicht nach eine weiter optimierte 7nm Fertigung sehen, je nachdem wie viel Platz man sparen kann, wird eine komplette direkte Verdrahtung von 8 Kernen ja möglich. Wenn ich die richtige Logik anwende müsste man statt 16 Verdrahtungen auf 64 aufstocken, damit alle Kerne untereinander verdrahtet sind. Man müsste natürlich wissen wie viel Platz so etwas einnimmt, aber bei nochmal 20% weniger Fläche im Vergleich zu 7nm aktuell und damit dann schon fast 80% mehr Transistoren pro mm² würde man ja nur noch etwas mehr als die doppelte Chipfläche benötigen wie bei 14nm.
Aber sicher richtig, schon sehr spekulativ, ich glaube aber nicht, dass AMD den Ringbus nehmen wird, an Mesh glaube ich gar noch weniger. Daher muss wahrscheinlich ein Kompromiss her.
 
@BigBoymann: Wenn man das ausrechnet, ergibt sich 2 aus 8. SMT wird dabei nicht betrachtet. 2 aus 8 = 28. Selbst mit einem optimierten Prozess wäre der Aufwand enorm, eine solche Menge an Verbindungen zu realisieren. Mal abgesehen vom Platz könnte das auch zu Effizienzproblemen führen. Ein Mesh kommt vielleicht auch noch in Frage, aber dann könnte man auch bei Direct Conntect + IF bleiben. Performante Homogenität erreicht man am besten durch einen Ringbus, zumindest bei 8 Teilnehmern.

Natürlich ist das Spekulation. Ich bin gespannt, was AMD machen wird letztlich. Wenn ich wetten müsste, würde ich sagen, es wird ein (lokaler) Ringbus. ^^

Kannst du diese Behauptung belegen?

Bitteschön. Ist alles dabei, was das Herz begehrt: Ringbus, Mesh, IF1, IF2.
 
Zurück