AMD Ryzen mit 3D Vertical Cache Technology: Huckepack 64 MiB pro CCD

PCGH-Redaktion

Kommentar-System
Teammitglied
Jetzt ist Ihre Meinung gefragt zu AMD Ryzen mit 3D Vertical Cache Technology: Huckepack 64 MiB pro CCD

Die von AMD auf der Computex 2021 vorgestellte 3D Vertical Cache Technology liefert Prozessoren Zusatz-Cache, der Huckepack auf dem CCD angeritten kommt. Beim gezeigten Ryzen-Prototypen sind es 64 MiB SRAM-Cache pro CCD extra.

Bitte beachten Sie: Der Kommentarbereich wird gemäß der Forenregeln moderiert. Allgemeine Fragen und Kritik zu Online-Artikeln von PC Games Hardware sind im Feedback-Unterforum zu veröffentlichen und nicht im Kommentarthread zu einer News. Dort werden sie ohne Nachfragen entfernt.

lastpost-right.png
Zurück zum Artikel: AMD Ryzen mit 3D Vertical Cache Technology: Huckepack 64 MiB pro CCD
 
Crossposting:
Was ich persönlich vermisse sind Angaben zur Energieeffizienz. Bei ansonsten identischen Settings und Spezifikationen der Gesamtplattform bringt mehr Cache ja auch mehr Leistungsaufnahme mit sich. Entsprechend ist besonders interessant, um welchen Prozentsatz AMD den Takt jetzt senken könnte und unterm Strich (durch den IPC-Gewinn des gestackten Caches) bei identischer Performance bleiben könnte und was das insgesamt für einen Effizienzgewinn zur Folge hat. (vielleicht sorgt es sogar für gar keinen?)

Egal: Ich bin auf jeden Fall beeindruckt, dass sie dieses Experiment schon jetzt wagen. Das ist ja etwas deutlich anderes, als in der Vergangenheit schon probiert wurde; denn diesmal soll sich der weitere Cache erstmals in der gleichen Hierarchie befinden wie der OnDieCache. (früher gab es ja auch schon gestackten L4-Cache bei einer CPU mit integrierten L3-Cache)
 
haben keine (Intel) Schublade, alles muss raus
Auch Intel hatte keine Schublade, diese Schubladentheorie ergab auch nie Sinn:
Nein, in der ominösen Schublade war nichts. Die gab es nämlich nie, Intel hat niemals eine Killerarchitektur entwickelt, nur um diese dann nicht zu bringen. Solch ein Betrug an der Allgemeinheit ergäbe in einem anderen Business (Staubsauger, Leuchtmittel, Automobile, Tastaturen, Monitore, ...) möglicherweise* Sinn. In der Chipwelt würde man die Killerarchitektur einfach dennoch bringen, aber künstlich beschneiden und würde damit das gleiche erreichen wie mit der Normaloarchitektur, aber zu geringeren Kosten.

Die nicht-ominöse Schublade war hingegen natürlich prall gefüllt. Kernanzahl erhöhen, Heatspreader wieder verlöten, Preis senken und sogar etwas, bei dem ich von niemanden gehört habe, dass das vorhergesehen wurde: DIEs für bessere Wärmeeigenschaften abflachen!
Eigentlich wurde sie noch nicht einmal vollständig ausgenutzt. Intel hätte auch einen Top-Chipsatz bringen können, haben sie nicht. Intel hätte AMD im Bereich der Idle-Leistungsaufnahme zusetzen können, haben sie nicht. Sie hätten im Bereich der Boxed-Kühler zurückschlagen können, haben sie nicht.

*langfristig ist so etwas immer Quark.
(...)
 
Wenn AMD schon so lange auf TR 5000 warten lässt dann können die von mir aus gern erst Ende des Jahres mit TR 5000 und dem extra Cache ums Eck kommen.
 
Niemand hat aus Intels "Schublade" eine "Killerarchitektur" erwartet. Aber so etwas wie sechs oder acht Kerne für Mainstream-Prozessoren dank der bereits in der "Schublade" liegenden entsprechenden HEDT-Architekturen, größere HEDT-CPUs wie sie für Workstations längst verkauft wurden, eine AMD-ähnlichere Marge, also niedrigere Preise, höhere offizielle Speichergeschwindigkeiten, wie sie praktisch längst möglich waren und höhere Kerntaktraten/kleinere, AMD-like Sicherheitsreserven wurden erwartet. Und all das hat Intel auch nach und nach gebracht. Einzig die 10-nm-Projekte entfielen (aus offensichtlichen Gründen) und (passend zum Thema) Crystalwell für Desktop alias zusätzlicher On-Package-Cache wurde nicht wieder ausgepackt. Der muss wohl hinter den Schubkasten in den Schrank gefallen sein.



Cache hat einen vergleichsweise geringen Energieverbrauch. Genaue Zahlen sind leider selten. Die einzigen offiziellen Angaben sind immer noch die (damals recht exakten) TDP-Angaben von Northwood und Galatin: Bei gleichem Takt verbrauchte letzterer ungefähr 25 Prozent mehr und der einzige Unterschied zwischen beiden Chips war ein zusätzlicher 2 MiB L3 Cache bei letzterem, der die Fläche ungefähr verdoppelte und die Transistorzahl ungefähr verdreifachte. Wenn AMD jetzt also circa 50 Prozent Silizium oben drauf packt (nur CCD), würde man bei sonst gleicher Konfiguration nur 5-10 Prozent mehr Verbrauch erwarten und bezogen auf den ganzen Prozessor inklusive IOD noch weniger. Sollte AMD im Gegenzug die Belastung des energieintensiven IF und IMC reduzieren, könnte es sogar ein Nullsummenspiel oder, insbesondere bei Milan, eine Netto-Einsparung werden.

Ein Effizienzgewinn durch mehr Cache ist also quasi garantiert solange er überhaupt genutzt werden kann, das Problem sind die enormen Kosten. +50 Prozent kostbare 7nm-Fläche erhöhrt sicherlich die Gesamtherstellungskosten sicherlich um mehr als die Hälfte und das Anbindung sowie Packaging eines zusätzlichen Chips sind auch nicht ohne, erst recht als Stack. Die Kirsche auf der Torte könnte hier aber die Kühlung werden: Zwar liegt kein Cache über den aktiven Recheneinheiten, aber dennoch ein weiterer Silizium-Layer. Das hat man bislang nur bei einigen experimentellen und bei Low-Power-Chips gesehen (z.B. Polaris oder Lakefield), aber für High-End-x86-Prozessoren galten die Nachteile bei der Kühlung immer als zu groß und bestenfalls eine Speicher-unter-Logik-Bauweise als machbar. (Diese wiederum hat noch niemand umgesetzt, weil die nötigen TSVs im unteren Chip kaum Platz für Speicherzellen lassen würden.)
 
Wenn AMD schon so lange auf TR 5000 warten lässt dann können die von mir aus gern erst Ende des Jahres mit TR 5000 und dem extra Cache ums Eck kommen.
Das ist ein schöner Ansatzpunkt für weitere Fragen, was für AMD aktuell eigentlich möglich ist:
  • Könnte AMD Vermeer-Core-Chiplets mit einem neuen IO-DIE mit AM5-DDR5-Support koppeln?
  • Könnte AMD auf AM5 mehr Vermeer-Core-Chiplets auf einen AM5-Package unterbringen und so zum Beispiel einen 32-Kern-Vermeer-Threadripper auf AM5 ermöglichen?
  • Könnte AMD Vermeer günstig shrinken? Ist mit entsprechenden Kapazitäten bei TSMC zu rechnen?
  • Gibt sicher noch Massen mehr...
 
Zuletzt bearbeitet:
- Zen-3-CCX, wie sie auf Vermeer oder Milan genutzt werden, in Kombination mit einem neuen DDR5-IOD und AM5-Package waren (und sind) eine der beiden plausiblen Theorien dafür, was "Warhol" eigentlich werden soll(te).
- Einen 32-Kern-Threadripper gibt es längst. ;-) Ihn in einen Sockel "AM5" zu quetschen würde aber eine entsprechende Infrastruktur erfordern. Die Verdoppelung von Spannungswandlern und Kühlung gegenüber AM4 wäre Pflicht, ein 50 Prozent größeres Package dürfte ausreichen, der IOD sollte neben der doppelten Anzahl an IF-Kanälen auch wesentlich mehr Speichertransferrate bieten, wofür DDR5 alleine anfangs kaum reichen würde. Am Ende stünde also eine Plattform im Format des Sockel 2066, was tatsächlich sehr gut für private Enthusiasten passt. Aber unmöglich den von AM4 schon zunehmend schlechter abgedeckten Einsteigermarkt bedienen kann und mit letzterem lässt sich viel mehr verdienen. während schon der aktuelle Ryzen 9 5950X wenig mehr als ein selten verkauftes Halo-Produkt für das Marketing ist. => Sehr unwahrscheinlich.
- Kleiner = teurer, erst recht bei der aktuellen Auftragslage von TSMC.
 
Ich hatte schon die Befürchtung, dass das Infinity-Fabric Interconnect demnächst zum Bottleneck werden könnte, besonders wenn AMD Chiplet-GPUs bauen will. Cool das AMD da bereits an Lösungen arbeitet. Auch wenn es aktuell "nur" Cache ist, sind die Erfahrungen mit 3D-Chip-Stacks echt wertvoll.
 
[...] Auch wenn es aktuell "nur" Cache ist, sind die Erfahrungen mit 3D-Chip-Stacks echt wertvoll.
Da kommen sie ja auch nicht drumherum, wenn sie konkurrenzfähig bleiben wollen. nVidia arbeitet an MCM-GPUs (ob das auch NextGen-Consumer-Produkte betrifft, wer weiß), Intel stattet Sapphire Rapids SP mit bis zu 64 GiB HBM2 aus, für Raptor Lake wird ein werbetauglicher "Game Cache" *) zitiert, der in etwa ein vergleilchbares Konzept wie das von AMD darstellen dürfte und Intel stackt schon etwas länger, zuletzt demonstriert mit dem Extrem-Design Xe-HPC. Man darf hier gespannt sein, wohin die Reise geht. (Btw ... von daher dürfte Intels Foundry Services dieses mal auch nicht ganz so uninteressant sein, wenn sie dieses Mal tatsächlich vollen Zugang zu ihrer IP und ihren Packaging-Technologien gewähren.)

*) Beispielsweise quasi eine modernisierte Variante des i7-5775C mit 128 MiB eDRAM.
**) AMDs Genoa soll übrigens angeblich auch HBM2-Speicher auf dem Package haben.

Interessant wäre nur, ob das erwähnte "Zen3"-CCD noch ein paar Pluspunkte parat hat oder ob es hierbei nur um den Cache geht, denn dann wäre es durchaus denkbar, dass der "Refresh" bzw. das als "Zen3+"-Äquivalent kolportierte Update lediglich die bekannte Architektur mit mehr Cache kombiniert.
Weiterhin wurde erwähnt die Produktion zum Jahresende hin anlaufen zu lassen und auch vorerst nur bei den HighEnd-CPUs, d. h. vermutlich vorerst nur dem 5900X und 5950X, d. h. hier dürfte man wohl erst ab Anfang 2022 mit neuer Hardware rechnen.

Und weiterhin unbeantwortet steht leider die Frage im Raum bzgl. eines "zeitnahen" (vielleicht auch nur teilweisen) Plattformupdates. Hier könnte man gut begründet durchaus in beide Richtungen spekulieren ...
 
Wenn wir von Schubladen reden aus denen Dinge fallen, dann lasst uns vom 5600X reden. Seitdem der Intel 11500 in nennenswerten Stückzahlen aufgetaucht ist, gibt es plötzlich hunderte von 5600X und der Preis geht ganz steil nach unten.

1. Mai: 320€
1. Juni (heute): 267€ (Tendenz weiter fallend)

Ohne Preisdruck eines weiteren Herstellers ist Abzocke die Standard-Vorgehensweise 2021.
 
Bei APUs könnte der Cache auch sehr interessant sein, um die Bandweitenprobleme von normalem RAM abzufangen. Ist aber vermutlich viel zu teuer für den normalen Einsatzzweck von APUs.
 
Ist bekannt wo AMD das Cache-Die fertigen lässt?
Welcher Prozess?
7nm TSMC, wie die Chiplets. Es ist aber ein adaptierter Prozess da die Cachedice dünner sein müssen um später in gestapelter Form die gleiche Bauhöhe wie der Restchip zu haben (von den nötigen TSVs mal ganz abgesehen).
AMD spricht da von "einer Entwicklung mit dem Partner TSMC die mehrere Jahre in Anspruch nahm".

Zu viel cache ist nich gut, erhöht die Latenz.
"Die Frage der Latenzen erklärt AMD knapp: Aus 2D wird 3D. Um von Punkt A nach B zu gelangen muss die Abfrage nicht den ganzen Cache durchlaufen, sondern kürzt über die TSV in der 3. Dimension ab. So entsteht nahezu keine Strafzeit, in Tests soll diese quasi nicht einmal merkbar sein."

Pauschalaussagen funktionieren nur dann wenn man keine neuen Konzepte nutzt. Das Cachestacking von AMD hat keine nennenswerten Latenznachteile, selbst wenn sie 256 MB extra (8 Stacks) reinbauen.
Quasi wie ein 5775c von Intel damals - nur besser (schneller/größer).

Ich hab das hier nebenbei nur aufgegriffen um die Info in den Thread zu schreiben - nicht dass du noch denkst ich hätte deinen üblichen Intelistvielbesser-Post irgendwie ernstgenommen.^^
 
Zurück