Zen 3 mit 7nm oder 7nm+: Darum fehlt das Plus bei neueren AMD-Folien

PCGH-Redaktion

Kommentar-System
Teammitglied
Jetzt ist Ihre Meinung gefragt zu Zen 3 mit 7nm oder 7nm+: Darum fehlt das Plus bei neueren AMD-Folien

Älteren Folien AMDs war zu entnehmen, dass Zen 3 nicht länger in 7nm, sondern in 7nm+ gefertigt wird. Das führte mitunter zu der Annahme, dass man bei Auftragsfertiger TSMC mit EUV-Belichtung produziert, wo der Prozess N7+ heißt. Diesen Zusammenhang will man offenbar vermeiden.

Bitte beachten Sie: Der Kommentarbereich wird gemäß der Forenregeln moderiert. Allgemeine Fragen und Kritik zu Online-Artikeln von PC Games Hardware sind im Feedback-Unterforum zu veröffentlichen und nicht im Kommentarthread zu einer News. Dort werden sie ohne Nachfragen entfernt.

lastpost-right.png
Zurück zum Artikel: Zen 3 mit 7nm oder 7nm+: Darum fehlt das Plus bei neueren AMD-Folien
 
Extrem ultraviolettes Licht bringen die Taiwaner erst bei der dritten und höchsten Ausbaustufe "N7+" zum Einsatz,
zumindest bei den ersten Chiplayern. Gegenüber N7 stellt TSMC eine 20 Prozent höhere Packdichte in Aussicht.

Wen sie die dritte stufe nehmen dan wird es dan 10 Kerne pro die geben bei fast identischer fläche?:sabber:
 
Wen sie die dritte stufe nehmen dan wird es dan 10 Kerne pro die geben bei fast identischer fläche?:sabber:

Technisch/theoretisch möglich ja - realistisch aber nein.
Die zusätzliche Fläche wird man eher nutzen für Detailverbesserungen/Caches/IPC oder ganz simpel weglassen für bessere Kosten - denn mehr kerne ist aktuell nicht (mehr) das, was die Leute lockt. Man ist ja schon in quasi allen Sparten besser als die Konkurrenz aufgestellt (oder anders gesagt es gibt keinen Grund die kernzahl aktuell zu erhöhen wenn man im Desktop schon 16 und im HEDT 64 davon anbietet...).

Ich sehe mehr Kerne frühestens mit Ryzen5000 un 5nm da man da mit der wieder viel größeren zusätzlichen Fläche was machen MUSS (da ZU kleine Dice nicht praktikabel nutzbar sind). Da kann AMD entweder den L3 mal wieder verdoppeln oder Chiplets mit 12 oder 16 Kernen auflegen.
 
Wen sie die dritte stufe nehmen dan wird es dan 10 Kerne pro die geben bei fast identischer fläche?

Konkret ist die Aussage im Artikel auch falsch, denn der N7 (DUV) ist TSMCs erster 7 nm-Prozess, der N7+ (4 Lagen EUV) ist deren zweiter Prozess, der bereits seit dem 2HJ18 in der Risk-Produktion ist, während der N7P nur eine nachfolgende, iterative Weiterentwicklung des N7 ist. Schlussendlich wurden sowohl der N7+ als auch der N7P nahezu zeitgleich in die Massenfertigung überführt, wobei jedoch TSMC den N7P medientechnisch nahzu unter den Tisch fallen ließ und nicht groß erwähnte. Der vierte 7 nm-Prozess wird der N6 sein, der in der nächsten Zeit in die Risk-Produktion gehen müsste und ab etwa Ende 2020 für die Volumenproduktion zur Verfügung stehen sollte. (Vorteil des N6 ist, dass er sich die Design Rules mit dem N7(P) teilt.)

5nm also 2021/22 mit Zen4 ?
Pah... 2021/22 ist Intel schon bei 10nm.

AMD wird im 2HJ21 5 nm (N5 oder gar den N5P) für Zen4, also das Chiplet nutzen (ggf. auch für CDNA2, das jedoch möglicherweise erst in 1HJ22 erscheint).
Intel wird im 1HJ21 Sapphire Rapids SP in 10nm+++ fertigen und im 2HJ21 Ponte Vecchio (Xe) in 7nm. 7nm bei CPUs erwartet man hier erstmals für Granite Rapids SP (1HJ22).
Wenn AMD tatsächlich auch die 5 nm für ihr CDNA2-GPGPU-Design verwenden wird, wovon auszugehen ist, dann würden bereits 2021/22 gleichwertige Fertigungsprozesse in diesem Bereich aufeinandertreffen und Intel hätte zumindest hier bereits die Gap vollständig geschlossen. (Darüber hinaus werden sie die Gap bei Server-CPUs möglicherweise bereits 6 Monate später schließen, d. h. die Fertigungsvorteile, die AMD zurzeit durch TSMC nutzen kann, werden in absehbarer Zeit aufgebraucht sein.

(Desktop-CPUs sind dagegen ein anderes Thema, weil Intel dieses prioritätstechnisch den Datacenterprodukten unterordnet. Vor 2022 wird man zweifelsfrei nichts auf dem Desktop in 7nm (P1276) zu sehen bekommen und ich würde gar davon ausgehen, dass Intel sich nicht einmal genötigt sieht, vor 2023 7nm auf den Desktop zu bringen.)
 
Ist wohl einfach eine Frage dessen, welcher Prozess dann wie gut verfügbar ist.

Bei Intel wird es noch eine ganze weile dauern, bis man überhaupt 10nm und damit IceLake im Desktop sieht.
Dafür haben sie erst mal neue Sicherheitslücken, die schon heute ein Argument sind auf AMD zu wechseln.
Sicherheitsluecke in CSME: Vertrauen in Intels Technologien schwindet - ComputerBase

Ice Lake im Desktop? Einsteiger und Serverchips nehme ich an. Im Desktop erwarte ich mir vor 2022 nix aufregendes von Intel. Dann dafür gleich mit DDR5, USB4, PCIe 4 oder gar 5

Solange wird meine Mühle noch halten und dann wird wieder mal ein bisschen was gekauft
 
[...]Bei Intel wird es noch eine ganze weile dauern, bis man überhaupt 10nm und damit IceLake im Desktop sieht. [...]

Ich würde meinen, dass man Ice Lake niemals auf dem Desktop zu sehen bekommt, ebensowenig wie die zugehörige Mikroarchitektur Sunny Cove.
Intel dreht jetzt noch einmal eine weitere Runde mit einer Skylake-basierten Iteration und vor Ende des Jahres wird es da wohl kein Desktop-Update mehr geben und wenn das kommt, wird das im" wörsten" worst case noch einmal ein Skylake-Derivat :lol:oder aber bereits etwas wie Willow Cove, auf der bspw. Tiger Lake U basiert und die voraussichtlich auch die Basis für Sapphire Rapids SP darstellen wird (oder aber dessen Nachfolger Golden Cove).

Wenn sie sich schon Zeit lassen, wäre es unsinnig, dann auch noch auf eine alte Architektur zurückzugreifen, wenn es denn einmal soweit ist. Modernisierte Mikroarchitekturen haben sie bereits und Tiger Lake U/Willow Cove wird in einigen Monaten bereits im Markt sein, aber auf dem Desktop scheuen sie derzeit eine Rückportierung, was aber auch nachvollziehbar ist, da dadurch zwar Zugewinne erreichbar wären, diese sich aber aufgrund der Prozessbeschränkungen nicht voll entfalten können.
Richtig interessant wird auf dem Desktop dort erst wieder etwas wie ein Willow Cove-basiertes Design in 10nm++ oder ein Golden Cove-basiertes Design in 10nm+++ (die für 2021 angekündigt sind). Man wird abwarten müssen, was die vermeintliche Rocket Lake-CPU im Unterbau verwenden wird ...
Im Wesentlichen dürfte es Intel in der Client-Sparte derzeit vorrangig darum gehen die OEMs halbwegs/irgendwie zufrieden zu stellen. Gamer/Enthusiasts sind derzeit zweitrangig, vielleicht aus der persönlichen Perspektive eher unschön, aus Sicht von Intel jedoch nachvollziehbar (denn hier ist TAM wichtiger).
 
Im Artikel steht es Recht deutlich, ein CCX pro CCD, statt wie bisher zwei.
Grundsätzlich stellt sich mir die Frage, ob eine begriffliche Unterscheidung Sinn macht, wenn es nur noch ein CCX pro CCD gibt? Wie modular ist ein Modul?

Außerdem sollte einem doch klar geworden sein, dass AMDs größte Stärke eben genau kein Ringbus ist. Warum sollte man sich seiner großen Stärke berauben?
Inwiefern Stärke? Von der Performance ist der Ringbus stärker. So gesehen ist es bloß ein Kompromiss aus Designflexibilität und Performance. Man würde also sich keiner Stärke berauben, sondern Performance gewinnen. Designflexibilität bezgl. Chiplets und I/O-Die bliebe ja erhalten.
 
Grundsätzlich stellt sich mir die Frage, ob eine begriffliche Unterscheidung Sinn macht, wenn es nur noch ein CCX pro CCD gibt? Wie modular ist ein Modul?


Inwiefern Stärke? Von der Performance ist der Ringbus stärker. So gesehen ist es bloß ein Kompromiss aus Designflexibilität und Performance. Man würde also sich keiner Stärke berauben, sondern Performance gewinnen. Designflexibilität bezgl. Chiplets und I/O-Die bliebe ja erhalten.

Die Designflexibilität bliebe inwieweit erhalten?

Wenn ich den Ringbus richtig verstanden habe, wäre ein "Zusammenflanschen" viel schwieriger und mit wesentlich mehr Chipfläche, bzw noch größeren Performanceeinbußen bei mehreren CCDs verbunden als beim aktuellen Chipletdesign. Man würde in meinen Augen nur mit 8Kernern einen Performancegewinn verbuchen, dafür aber Flexibilität und Performance bei mehr als 8 Kernen verlieren müssen. Ein 64Kerner würde damit quasi zu einem Chip verschmelzen, oder aber zu bspw. 4 Chips die in Intel Manier zusammengeklebt werden müssen. Bei Intel waren gerade die Skalierbarkeit ein Riesen-Nachteil und das würde auch AMD treffen. Daher sehe ich den Ringbus bei anhaltender Kernmanie als gestorben an.
 
Vermutlich N7P, weil die Designregeln mit N7 kompatibel sind.

N7+ ist ja eine Sackgasse!
N7P wird schon für Navi1X verwendet.
Bleibt nur eine andere Cell Library oder N7+ übrig oder schlicht Marketing-Folien, die minimale Verbesserungen irgendwie bewerben wollten.
https://twitter.com/david_schor/status/1235731985475096576

Hm, wie so sollte das dann noch eine CCX Struktur sein? Es könnte auch einfach ein CCD mit Ringbus sein.
CCX würde sich wie bisher auf den Kerncluster beschränken, Core Compute Die beschreibt den ganzen Chip.

Die Designflexibilität bliebe inwieweit erhalten?

Wenn ich den Ringbus richtig verstanden habe, wäre ein "Zusammenflanschen" viel schwieriger und mit wesentlich mehr Chipfläche, bzw noch größeren Performanceeinbußen bei mehreren CCDs verbunden als beim aktuellen Chipletdesign. Man würde in meinen Augen nur mit 8Kernern einen Performancegewinn verbuchen, dafür aber Flexibilität und Performance bei mehr als 8 Kernen verlieren müssen. Ein 64Kerner würde damit quasi zu einem Chip verschmelzen, oder aber zu bspw. 4 Chips die in Intel Manier zusammengeklebt werden müssen. Bei Intel waren gerade die Skalierbarkeit ein Riesen-Nachteil und das würde auch AMD treffen. Daher sehe ich den Ringbus bei anhaltender Kernmanie als gestorben an.
Da würde sich aktuell nichts ändern, denn es würde sich nur auf das Chiplet selber beschränken.
Momentan verwendet AMD eine direkte Crossbar-Verbindung für bis zu 4-Kerne, dass kann man günstig realisieren und bietet die beste Latenz für die Kommunikation.
Aber der Kompromiss ist, dass nur 4-Kerne miteinander kommunizieren bzw. aktuell sich einen gemeinsamen L3$ teilen, darüber hinaus muss man über Infinity-Fabric mit höherer Latenz und Stromaufnahme gehen.
Code welcher lokal auf einem CCX laufen kann, läuft gut, müssen Daten aber darüber hinaus ausgetauscht werden oder ist das Datenset so groß, dass es nicht in den gemeinsamen L3$ passt, sinkt die Performance (stark) ab.
Man könnte jetzt auch direkt 8-Kerne miteinander verdrahten, aber jeden Kern direkt zueinander zu verdrahten bedeutet das der Aufwand dafür einfach explodiert, dass frisst dann ordentlich Fläche und Strom.
Deswegen würde sich eine andere Topologie anbieten, wie ein Ring oder ein Mesh-Network oder etwas noch anderes.
Bei einem Ring würde man die Daten eben über einen Ring schicken, was die Latenz in einigen Fällen erhöhen würde, da ein Kern nicht mehr direkt mit drei weiteren verbunden ist, dafür würde sich die Latenz aber zwischen 8-Kernen im Schnitt verbessern und wenn der L3$ geteilt wird, vergrößert man den Bereich, wo Daten lokal bearbeitet werden können, ohne ein CCX verlassen zu müssen.

Aktuell verwendet Rome 8 Chiplets, jedes Chiplet hat insgesamt 8-Kerne, welche aus zwei 4-Kern CCX bestehen.
Milan ändert nur Letzteres, es wären nach wie vor 8 Chiplets, aber anstatt zwei CCX pro Chiplet, wäre es ein 8-Kern CCX Chiplet.

Bei einem Ring ist die Skalierbarkeit natürlich auch begrenzt, denn je mehr Kerne man hat, desto länger dauert es Daten von einem Ende zum anderem zu schicken.
Intel hat bei Broadwell maximal 12-Kerne miteinander über einen Ring kommunizieren lassen, darüber gab es noch einen weiteren Ring und Ring-Switches zwischen mehreren Clustern.
Für Skylake hat Intel dann auf ein Mesh-Netzwerk gesetzt, was wiederum andere Kompromisse aufweist.
 
Zurück