AMD Ryzen 5000: Die Zen-3-Architektur im Detail

Gerry1984 · 7. November 2020

Was mir fehlt ist eine Erklärung wie die acht Kern in einem CCX miteinander verschaltet sind.

Beim Vierkern-CCX waren alle Kerne direkt miteinander verbunden, das erfordert sechs Verbindungen. Bei acht Kernen würde es aber schon 28 Verbindungen bedeuten, ich glaube das ist zu viel. Wie aber schaut das Interconnect nun aus? Ein Ringbus oder Mesh wie bei Intel? Oder ein Hybrid? Nach wie vor sechs Verbindungen aber dafür pro Knotenpunkt ein Cluster aus zwei Cores statt einem?

Torsten, gibts dazu nichts in den Folien von AMD? :huh:

Olstyle · 7. November 2020

Genau wollte sich AMD da nicht drüber auslassen.

AnandTech Forums: Technology, Hardware, Software, and Deals

Seeking answers? Join the AnandTech community: where nearly half-a-million members share solutions and discuss the latest tech.

www.anandtech.com

Aber es scheint 2er Paare zu geben:
https://images.anandtech.com/doci/16214/CC5950X.png

Gerry1984 · 7. November 2020

Olstyle schrieb:
Genau wollte sich AMD da nicht drüber auslassen.

AnandTech Forums: Technology, Hardware, Software, and Deals

Seeking answers? Join the AnandTech community: where nearly half-a-million members share solutions and discuss the latest tech.

www.anandtech.com

Aber es scheint 2er Paare zu geben:
https://images.anandtech.com/doci/16214/CC5950X.png

Danke fuer den Link, der Test ist wirklich sehr umfangreichreich und die Erklärung der Architektur sehr tiefghehend.

Aber woraus schließt du Zweierpaare bei den Kernen? Auf dem Core to Core Latency Diagramm ist das nicht zu erkennen. Die benachbarten Threads haben jeweils eine sehr niedrige Latenz von etwa 7ns während normal innerhalb des CCX etwa 17ns sind. Falls du daraus schließt dass es Kernpaare sind ist das imho ein Irrtum denn das duerften die zwei SMT-Threads pro Kern sein. Genau das selbe Muster ist auch schon beim Zen2 3950X mit nur vier Kernen pro CCX zu erkennen.

Das Diagramm ist hierbei irrefuehrend da es von Cores spricht, hier aber offensichtlich nicht physische Kerne sondern nur logische Kerne (Threads) meint.

https://images.anandtech.com/doci/16214/CC3950X.png

Überhaupt lässt die extreme gleichmäßige Latenz aller Kerne pro Achtkern-CCX bei Zen3 darauf schließen dass alle Kerne offensichtlich doch direkt miteinander verbunden sind, ohne bevorteilte Nachbarkerne wie sie bei paarweiser Anordnung erkennbar sein mssten. AUch ein Mesh oder Ring ist dem Diagramm nach auzuschließen.

https://images.anandtech.com/doci/16214/CC5950X.png

Hat AMD am Ende wirklich 28 "Leitungen" fuer das Interconnect pro CCX verbaut? Oder irgendeine Secret Sauce? :ugly:

Olstyle · 7. November 2020

Hast Recht, da hab ich schlicht die Threads auf ein und dem selben Kern gesehen.

Manner1a · 7. November 2020

@ RyzA: Ist die Kühlung teuer genug (Flüssigstickstoff) , landet man bei rechnerischen 450 Watt für den Ryzen 9 5950X, sagt der8auer. Er spricht von 255 Ampere Stromstärke und nimmt den Maximalwert von 1,756 Volt Spannung, ausgelesen bei HWiNFO64, das ergibt 447,78 Watt. Die durchschnittliche Spannung (CPU Core Current) beträgt 1,746 Volt. Das ergäbe dann bei angenommenen 255 Ampere 445,23 Watt CPU Leistungsaufnahme. Damit werden durchweg mehr als 14.000 Punkte im Cinebench R20 erreicht.

Unter Normalbedingungen ergibt sich ein anderes Bild: Da verwendet Roman eine 280mm AIO Wasserkühlung und verweist da drauf, bessere Werte zu erreichen mit einer Custom Wasserkühlung. 169 Ampere Stromstärke (Current) habe ich im Video erblickt bei 1,3 Volt Spannung, macht (rechnerisch) 219,7 Watt bei anfänglichen 4,675 GHz und 4,600 GHz All Core OC bei den beiden 8 Kern CCDs, eingestellt im BIOS des Mainboards. Allerdings steigen die Temperaturen zu sehr an, da möchte die CPU die Taktgeschwindigkeit leicht senken. Bei 88°C liegen noch 4,525-4,550 GHz auf allen Kernen an. Bei den angesprochenen 105W TDP und 141,75 Watt Leistungsaufnahme bei Faktor 1,35 ergeben sich meines Wissens nach keinerlei Kühlungsprobleme. Mein 10-Kerner läuft gerade mit einem Arctic 95 Watt Kühler für 5,75€. Der neue, schwarze Intel Boxed Kühler ist ein wenig schwächer und ist bei 3000 statt 2000 Umdrehungen im Maximum mehr auch deutlich hörbar. Der Mehrpreis damals war nur durch die längere Garantie und die Boxed Verpackung zu rechtfertigen...oder die Herstellung des Boxed Kühlers ist aus Gründen kostenintensiv...gewesen. Gerade ist die Tray Version teurer, genau wie beim 12 Kern Ryzen 9 3900X jetzt.

Beim Sockel 2066 sind es mit Custom Wasserkühlung 561 Watt beim 14 Kern i9-9990XE und 596 Watt beim 18 Kern i9-9980XE. Die Leistungsaufnahme steigt mit höheren Temperaturen, ca. 4% für 10°C, aber da Taktraten und Spannungen zivil sind beim Normalbetrieb, landet man 288 Watt in Cinebench R15 für den 18 Kern i9-9980XE und 294 Watt für den 14 Kern i9-9940XE.

EDIT: Das sind nur die Quellen. Keine Verpflichtung, sich das alles anzugucken bzw. zuzuhören. Was für ein Aufwand das immer ist, diese ganzen Daten zusammen zu tragen. :lol:

Aber gejammert wird ja nicht.

[VIDEO]

Eingebundener Inhalt

An dieser Stelle findest du externe Inhalte von Youtube. Zum Schutz deiner persönlichen Daten werden externe Einbindungen erst angezeigt, wenn du dies durch Klick auf "Alle externen Inhalte laden" bestätigst: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt.
Für mehr Informationen besuche die Datenschutz-Seite.

[VIDEO]

Eingebundener Inhalt

An dieser Stelle findest du externe Inhalte von Youtube. Zum Schutz deiner persönlichen Daten werden externe Einbindungen erst angezeigt, wenn du dies durch Klick auf "Alle externen Inhalte laden" bestätigst: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt.
Für mehr Informationen besuche die Datenschutz-Seite.

EDIT 2: Cracky meint zu einem Ryzen 7 5800X, der im Cinebench 4,5 GHz hält , da ist schon ordentlich Party, was die Temperatur angeht und ein Kommentar lautet, mit Ryzen kann man einfach nicht zocken. Der verwendete, recht große Luftkühler wird mit einer 360´er All in One Wasserkühlung verglichen dabei, wobei das PowerLimit um 50% angehoben sein soll, wenn ich mich zuvor nicht verhört habe. Kurze Zeit später sagt Cracky, er hat bei diesem Kühler "Industrial Fans" drin, die 3.000 Umdrehungen machen. Trotzdem würde ich mir nicht allzu viele Sorgen machen, wenn man nur einen günstigen, leichten Kühler drauf packt. Zeitstempel 2 Stunden 43 Sekunden

[VIDEO]

Eingebundener Inhalt

An dieser Stelle findest du externe Inhalte von Youtube. Zum Schutz deiner persönlichen Daten werden externe Einbindungen erst angezeigt, wenn du dies durch Klick auf "Alle externen Inhalte laden" bestätigst: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt.
Für mehr Informationen besuche die Datenschutz-Seite.

PCGH_Torsten · 8. November 2020

RyzA schrieb:
Naja, aber in welchen Szenario wird die CPU mehr belastet?
Man kann zwar keine Perfomance mehr rausholen wenn alles ausgelastet wird, aber weiß was der absolute Spitzenverbrauch ist.
Und in der Regel wird man diesen in Spielen nicht erreichen (ausser im CPU Limit).

Ich wollte damit nur sagen, dass die neuen Ryzen, unter voller Auslastung ganz gut abschneiden, wenn man mit Intel vergleicht.

Vielleicht habe ich aber auch einen Denkfehler. Dann entschuldige ich mich.

Du hast den bisherigen Verlauf der Diskussion ignoriert. Es geht nicht um die maximale Verlustleistung, die die CPU erreichen kann. Wie Alki korrekt anmerkt, entspricht die den Limit-Vorgaben im UEFI – bei beiden Herstellern. Und je nachdem, ob man sich die Spannungswandlerbelastung (= maximaler kurzzeitiger Peak) oder die benötigte Kühlleistung (= maximale Dauerlast) anguckt, ist AMDs oder Intels Preset halt zahmer. Aber beide sind kalter Kaffee. Spannend bei Zen 3 ist die Effizienz in den Anwendungsbereichen, in denen die Rechenleistung extrem angestiegen ist. Da lässt die Theorie einen überproportionalen Anstieg erwarten, denn AMDs Optimierungen sorgen für eine höhere Auslastungsrate und damit weniger effizienten Teillastbetrieb, für mehr Last auf dem energiehungrigen, aber keine direkte Rechenarbeit leistenden Front-End und für mehr spekualtive Operationen (sowohl Berechnungen als auch Prefetchs), für die AMD aber nur am Rande eine höhere Trefferquote verspricht.

Gerry1984 schrieb:
Danke fuer den Link, der Test ist wirklich sehr umfangreichreich und die Erklärung der Architektur sehr tiefghehend.

Aber woraus schließt du Zweierpaare bei den Kernen? Auf dem Core to Core Latency Diagramm ist das nicht zu erkennen. Die benachbarten Threads haben jeweils eine sehr niedrige Latenz von etwa 7ns während normal innerhalb des CCX etwa 17ns sind. Falls du daraus schließt dass es Kernpaare sind ist das imho ein Irrtum denn das duerften die zwei SMT-Threads pro Kern sein. Genau das selbe Muster ist auch schon beim Zen2 3950X mit nur vier Kernen pro CCX zu erkennen.

Das Diagramm ist hierbei irrefuehrend da es von Cores spricht, hier aber offensichtlich nicht physische Kerne sondern nur logische Kerne (Threads) meint.

https://images.anandtech.com/doci/16214/CC3950X.png

Überhaupt lässt die extreme gleichmäßige Latenz aller Kerne pro Achtkern-CCX bei Zen3 darauf schließen dass alle Kerne offensichtlich doch direkt miteinander verbunden sind, ohne bevorteilte Nachbarkerne wie sie bei paarweiser Anordnung erkennbar sein mssten. AUch ein Mesh oder Ring ist dem Diagramm nach auzuschließen.

https://images.anandtech.com/doci/16214/CC5950X.png

Hat AMD am Ende wirklich 28 "Leitungen" fuer das Interconnect pro CCX verbaut? Oder irgendeine Secret Sauce?

Laut AMD gibt es keine direkten Inter-Core-L2-Zugriffe. Die Daten werden vom Kern aus dem L3 angefordert und wenn es keinen L3-Treffer, aber einen in den Shadow-Tags der L2 der anderen Kerne gibt, werden sie aus deren L2 erst in den L3 geladen. Das würde eine konsistente Latenz innerhalb des CCX erwarten, die sich jeweils aus einem L2=>L3 Transfer eines beliebigen anderen Kerns und einem folgenden L3=>L2-Zugriffs zusammensetzt. Angaben zu weiteren Interconnects hat AMD uns gegenüber/in den Präsentationen nicht gemacht, auch nicht zu der laut Ian gleichbleibenden Gesamtbandbreite für alle Kerne zusammen. In der Regel spricht AMD weiterhin von "Crossbar", wenn es um verbindende Strukturen geht, aber ob es sich dabei wirklich um ein frei schaltbares Endpunkt-zu-Endpunkt-Routing handelt (und wenn ja: Wie viele Kanäle es hat?) weiß ich nicht. Könnte ebenso gut ein Begriff sein, der sich seit Athlon-64-X2-Zeiten verstetigt hat und heute keine Aussage mehr über die physischen Gegebenheiten macht. Obiges Verhalten des Shadow-Tag-Systems würde für mich nahelegen, dass es außer über die Verbindungen zum L3 und weiter zum IF gar keine Daten in die Kerne rein oder aus diese heraus können.

gaussmath · 24. November 2020

@PCGH_Torsten Danke für den Artikel. :daumen:

Hast du was davon mitbekommen, welche Netztopologie nun innerhalb eines CCX verwendet wird? Butter-Donut?
Ringbus?

Anandtech dazu:

Achieving this larger 32MB L3 cache didn’t come without compromises as latencies have gone up by roughly 7 cycles to 46 cycles total. We asked AMD about the topology of the new cache but they wouldn’t comment on it besides stating that it’s still an address-hash based system across the 8 cache slices, with a flat memory latency across the depth of the cache, from the view of a single core.

So richtig schlau werde ich daraus jetzt nicht.

PCGH_Torsten · 24. November 2020

Entspricht leider genau meinem Stand. Ich habe AMD für den ausführlicheren Printartikel ebenfalls darauf angesprochen, habe aber ebenso wenig eine Antwort bekommen, wie Ian. Das Address-System beschreibt halt nur die logische Verwaltung. Die ist definitiv flat bis in die L2s der anderen Kerne rein und man hat homogene Zugriffszeiten aus Sicht eines einzelnen Kerns. Aber AMD mauert, was den physischen Datentransport betrifft. Das werte ich mal als Hinweis, dass es tatsächlich kein Glanzpunkt ist, sondern bei Aktivität aller Kerne limitieren könnte.^^
Aber ab wann und wie stark – wenn Ian mit seinen Diagnosemöglichkeiten nichts einkreisen konnte, habe ich auch keine Chance.

gaussmath · 25. November 2020

Wenn man sich diese Zahlen anschaut, sieht's durchaus nach einer Butter-Donut Topologie mit max. 2 Hops aus.

PCGH_Torsten · 27. November 2020

Wie gesagt: Aus den Cache-Latenzen kannst du keine Schlüsse ziehen, da steht die Verwaltung außen vor. Was du misst, sind die drei Möglichkeiten "Zugriff innerhalb des eigenen L2", "Zugriff auf den L3, der Daten aus anderen L2 des CCX organisiert" und "Zugriff via IF". Die Variationen innerhalb dieser Gruppen wirken auf mich aber zufällig und machen somit keine Aussage auf den Datentransport zwischen den einzelnen Slices – wie von AMD auch angekündigt: Gegenüber einem einzelnen Kernen gibt es nur einen Flat Cache mit homogener Zugriffszeit innerhalb eines CCX. Das sieht am ehesten nach einer Crossbar aus.

user42 · 3. Dezember 2020

PCGH_Torsten schrieb:
Mal gucken, ob ich in ein paar Monaten mit einem "so läuft Zen 3 doch auf X370" nachlegen muss/kann

Oh ja!

AMD Ryzen 5000: Die Zen-3-Architektur im Detail

Gerry1984

Software-Overclocker(in)

Olstyle

Moderator

AnandTech Forums: Technology, Hardware, Software, and Deals

Gerry1984

Software-Overclocker(in)

AnandTech Forums: Technology, Hardware, Software, and Deals

Olstyle

Moderator

Manner1a

Software-Overclocker(in)

Anhänge

PCGH_Torsten

Community Manager

gaussmath

Guest

PCGH_Torsten

Community Manager

gaussmath

Guest

PCGH_Torsten

Community Manager

user42

Software-Overclocker(in)

Ähnliche Themen