RTX 3080 Ti und Co.: Nvidia soll bei Samsungs 8-nm-Prozess bleiben

chill_eule · 16. November 2020

AMD baut halt quasi das (erste?) mal einen L3 cache in eine GPU, und zwar einen ziemlich Großen.

Beim GA102 ist z.B. bei 6MB L2 cache schluss, danach kommt dann schon der VRAM.

Was nun geiler ist, sehen wir dann Mittwoch ^^

PS: GA100, der Vollausbau hat 40MB L2 cache zum Vergleich.

gerX7a · 16. November 2020

Als kleine Anmerkung: Der GA100 ist implizit ebenso ein Vollausbau wie der GA102, GA104 oder der möglicherweise noch kommende GA103.
Erst bei etwas konkretem wie dem GA102-300 der RTX 3090 lohnt es explizit vom Nicht-Vollausbau zu sprechen. Das was nVidia bspw. zurzeit als A100 verkauft, ist auch nicht mal ansatzweise der Vollausbau. Hier sind zwei HBM-Controller deaktiviert so wie 20 SMs. Hinzu kommt auch hier, dass die Möglichkeit besteht, dass im Zuge der Teildeaktivierung möglicherweise auch noch eine Cache-Slice deaktiviert wurde, d. h. der große L2 könnte auf dem GA100 auch noch ein klein wenig größer sein, bzw. 48 MiB, denn nVidia hat in seinem bisherigen Ausführung weitestgehend über den A100 gesprochen und Details zum GA100 als dem eigentlich zugrundeliegenden Chip eher am Rande erwähnt.

Insgesamt dient der L3/InfinityCache AMD im Wesentlichen dazu beim Speichersubsystem sparen zu können, sodass man hier mit nur 256 Bit auskommt. *) Vielleicht wird er noch hier und da ein paar kleinere Vorzüge beiten, diese können jedoch nicht übermäßig ausfallen, wenn man sich die Leistungswerte ansieht, den RDNA2 benötigt ebenso viele CUs um mit einer vergleichbaren Zahl an nVidia's SMs mitzuhalten und benötigt gar noch den deutlich höheren Takt, d. h. man kann hier schon absehen, dass seine wesetnliche Aufgabe die Kompensation der geringen Speicherbandbreite darstellt.

*) Effektiv tauscht man hier höhere Kosten bezogen auf die Wafer-Fläche pro Chip (der Cache dürfte über 100 mm2 hinzuaddieren) gegen weniger Kontaktierungen nach Außen auf dem Package, weniger Lanes auf dem PCB und weniger GDDR-BGAs.
Geht man davon aus, dass die bei Ampere beobachteten Speicherbandbreiten für einen Chip dieser Leistungsklasse tatsächlich benötigt werden, um ihn nicht auszubremsen, dann hätte AMD min. 320 Bit á la 16 Gbps implementieren müssen, was jedoch immer noch nur 640 GiB/s gewesen wären und zudem wäre es beim doppelten Speicherausbau noch einmal deutlich teuerer für sie geworden, weil der sich nun zwangsweise auf 20 GiB belaufen würde.
18 Gbps-BGAs sind anscheinend weiterhin kaum zu bekommen, d. h. möglicherweise hätte man gar 384 Bit mit 16 Gbps (768 GiB/s) implementieren müsse, aber das hätte die Speicherproblematik für AMD noch einmal verschärft, weil man da gleich 24 GiB hätte anbieten müssen, was bei den von AMD zwangsweise niedriger anzusetzenden Endverkaufspreisen ein beträchtliches Problem darstellt. 8 Controller mit 256 Bit scheinen hier durchaus für sie der SweetSpot gewesen zu sein und entsprechend groß musste der L3 ausgelegt werden, um diese deutlich geringere Bandbreite kompensieren zu können.

RTX 3080 Ti und Co.: Nvidia soll bei Samsungs 8-nm-Prozess bleiben

chill_eule

¡el moderador!

gerX7a

BIOS-Overclocker(in)

Ähnliche Themen