Radeon RX 7000: Block-Diagramme zu Navi 31, 32 und 33 veröffentlicht

Mir ist dazu auch noch nichts untergekommen, aber der Druck ist derzeit auch vergleichsweise gering, da das "Ausgereizt" relativ ist und sich primär auf nVidia bezieht (AMD steht Micron's OC-GDDR6 derzeit vermutlich noch nicht zur Verfügung, weil nVidia vermutlich alle produzierten Mengen aufkauft *):
a) Standard-GDDR6 geht bis 18 Gbps.
b) Micron bietet seine OC-Module bis 21 Gbps an, wie gesagt, nVidia nutzt das nicht ganz aus (läuft am oberen Limit vielleicht auch derzeit noch nicht so stabil oder produziert zu viel Abwärme).
c) Micron hat jedoch eine Weiterentwickung seiner OC-PAM4-Entwicklung schon Ende 2020 erklärt, d. h. man kann mit Optimierungen rechnen, EUV wäre eine Möglichkeit, und vielleicht kommen ja gar noch ein paar Gbps dazu in 2022? Zudem dürften in 2022 auch standardmäßig 16 Gb-BGAs zu Verfügung stehen.
d) Darüber hinaus wird natürlich ab einem gewissen Grade HBM2/3 auch kostentechnisch interessant, weil sich dann Mehrkosten und die technischen Vorteil wie Waage halten werden. Ein Punkt bei HBM ist natürlch auch immer die Verfügbarkeit, denn man muss berücksichtigen, dass Consumer-Produkte HighVolumeProdukte darstellen, d. h. da müsste man schon feste Zusagen seitens der Hersteller vorvereinbaren um nicht in Probleme zu laufen und die müssten vermutlich ihre Kapazitäten erhöhen (wiederum Kosten ;-))

*) Und da AMD derzeit die Schiene fährt Standard-GDDR6 + Cache, hat Micron hier auch keine Veranlassung seine Kapazitäten zu erhöhen, sondern wird sich weitestgehend auf die zugesagten Abnahmemengen von nVidia hin ausrichten.

Es wird auf jeden Fall interessant zu sehen sein, ob es auch in 2022 keine HBM-Designs geben wird, insbesondere bei den HigEnd-Chips, die beide Hersteller ja auch für professionelle Produkte mitverwenden werden. Ein paralleles Speichersubsystem in einem Chip wird sicherlich keiner implementieren, weil das pauschal Wafer-Fläche verschwendet. Wollte man GDDR6 und HBM2 nutztn, bräuchte man also zwei Chipdesigns. Bei AMD könnte das u. a. einfacher sein mit RDNA3, das angeblich einen separaten IOD nutzen soll, d. h. wenn der Speicher direkt am IOD hinge (und der nicht nur PCIe anbindet), könnte man zwei IODs designen, einen für GDDR6 und einen für HBM2 und die GPU-Tiles unverändert weiterverwenden.
Jedoch gibt es zwei Probleme bei der auf den ersten Blick eleganten Überlegung:
a) Die GPU-Tiles sind darauf ausgelegt mit der geringen GDDR6-Bandbreite auszukommen und haben deshalb große L3$ on-die. Die wären beim HBM-Design aber überflüssig und würden unnötig Wafer-Fläche verschwenden. Im worst case wäre die zusätzliche Cache-Stufe bei einem derart schnellen Speicher gar kontraproduktiv?
b) AMD hat grundsätzlich ein viel kleineres Umsatzvolumen bei seinen Profikarten, d. h. die zusätzlichen Aufwedungen fallen hier bei AMD für ein zusätzliches Design deutlich schwerer ins Gewicht.

Es gab jedoch auch mittlerweile Gerüchte im Äther, die behaupteten, dass bei RDNA3 der L3$ als separates Die am IOD hängt und damit optional und bspw. größentechnisch variabel wäre. Ob AMD bereits für 2022 ein derart fexibles und damit aber auch komplexes und teuer zusammengesetztes Design vorsieht ... wer weiß? Aktuell schwirren, wie zu RDNA2-Zeiten, noch sehr viel teils gegensätzliche Gerüchte durch den Äther und davon werden sich zwangsweise entliche als falsch erweisen ...

Darüber hianus gehe ich aber auch davon aus, dass man bei den großen Dreien sicherlich auch an etwas forschen wird, das später mal etwas wie GDDR7 werden könnte und das recht triviale Ziel haben wird wie etwas mehr Leistung als die Vorgeneration zu bieten, vielleicht auch effizienter sein wird, aber weiterhin implementationstechnisch günstiger zu sein als Stacked-DRAM wie bspw. HBM2/3. Der Vorteil von GDDR bleibt nun einmal die designtechnische Flexibilität. HBM muss mit dem Chip auf einem Interposer zusammenkonfiguriert werden und damit hat man ein weitaus teueres Design, das man bei Bedarf nicht mal eben in den unteren Marktsegmenten für weniger Geld vertreiben kann, weil die Kosten des gesamten Packages konstant bleiben. Bei separatem Speicher kann man hier zumindest noch am Speicher den Rotstift ansetzen und das Produkt runterstrippen und kleinere Chips verwenden oder gar auch grundsätzlich weniger Chips (und damit implizit ein schmaleres SI). Entsprechend würde ich davon ausgehen, dass aus kostengründen auch irgendwann noch tatsächlich etwas wie GDDR7 kommen wird.
 
Zuletzt bearbeitet:
5 Minuten Lesezeit...
Danke für deine, wie immer, sehr ausführliche Antwort :wow::D

d. h. da müsste man schon feste Zusagen seitens der Hersteller vorvereinbaren um nicht in Probleme zu laufen und die müssten vermutlich ihre Kapazitäten erhöhen
Neue Chip-Designs, die HBM verwenden zaubert man ja aber sicherlich nicht von Heute auf Morgen aus dem Hut, oder?
Dementsprechend müsste ja einer der Hersteller etliche Monate (Jahre?) im voraus schon mal bei einem Speicherhersteller anklopfen und entsprechend prognostizierte Mengen anfragen.

Interessant wäre natürlich auch der Zweigleisige Ansatz mit zwei I/O dies:
Wollte man GDDR6 und HBM2 nutztn, bräuchte man also zwei Chipdesigns. Bei AMD könnte das u. a. einfacher sein mit RDNA3, das angeblich einen separaten IOD nutzen soll
Ob das bei RDNA3 schon der Fall sein wird? Oder, falls überhaupt mal, erst bei RDNA4?
So viel Spekulatius!
Und soo viele Kosten/Nutzen-Rechnungen.
Zwei I/O Dies entwickeln um auch günstigen GDDR6 Speicher verwenden zu können für die Consumer-Karten?
Einer mit dem, ja noch recht frischen, L3 Cache?
Einer ohne, aber dafür eben HBM?
Auch wieder extra Kosten für ein separates Design :ka:
Plus:
Die GPU-Tiles sind darauf ausgelegt mit der geringen GDDR6-Bandbreite auszukommen und haben deshalb große L3$ on-die
Aktuell arbeitet AMD ja genau so mit RDNA2.
Allerdings bietet AMD auch gleichzeitig die CDNA (inklusive HBM2) im "Profi"-Bereich an.

Ein willkommener Kunstgriff wäre es natürlich, wenn AMD es schafft, all diese Elemente so zu designen, dass eine maximal mögliche Flexibilität und sogar gewisse Schnittmengen entstehen.
Bspw. High-End RDNA3 Grafikkarten mit HBM und/oder günstigere CDNA[2?] Profi-Karten mit "nur" GDDR6, statt entweder-oder. Diese könnte man dann je nach Bedarf und Budget zusammenwürfeln. *träum* :crazy:

Hach, herrlich kompliziert das Alles :fresse:
 
Ja, da gibts durchaus viele Designpfade, die man wählen könnte. Der limitierende Faktor wird am Ende immer die Wirtschaftlichkeit sein und nicht etwa das maximal größte Lächeln den Enthusiast-Gamern ins Gesicht zu zaubern, denn schließlich sind sowohl AMD wie auch nVidia hier zum Geldverdienen und nicht etwa als Weltverbesserer unterwegs. Beim erstgenannten Brand vergessen das leider so manchen immer gerne. ;-)

Zwei, drei lose Anmerkungen:

RDNA3 wird in den unteren Marktsegmenten sicherlich weiterhin monolithische Designs verwenden; MCM wäre da vermutlich zu teuer.

CDNA (ein angepasstes GCN) ist komplett unabhängig von der RDNA-Entwicklung und rein auf Compute Workloads ausgelegt. In der Architektur wurden gar wesentliche Bestandteile an 3D-Funktionseinheiten wegrationalisiert. Im Wesentlichen ist noch die Media-Engine übriggeblieben, damit Video verarbeitet werden kann, weil viele AI-Workloads Videomaterial verarbeiten.

Letzten Endes ist das schon alles recht interessant und technologisch haben die Hersteller hier sicherlich vielfältige Möglichkeiten, die weitaus effizientere oder leistungsfähigere Designs ermöglichen würden, nur der Generalanspruch und das Thema Wirtschaftlichkeit schränken den Griff in die Technologiekiste natürlich ein und wenn eine Firma am Ende des Bilanzjahres Umsatz und Gewinn X, Y unterm Strich stehen haben will und Produktsparte dazu z % beitragen muss, dann kann man halt nicht das technisch Beste verbauen. AMD hat sich mal irgendwann mit HBM versucht und das auf den Weg gebracht, jedoch beispielsweise Intel und nVidia dürften seit etwa 2016/17 schon durchgehend weitaus mehr HBM2 als AMD verbauen in ihren Produkten, was am Ende schlicht ein Resultat der Kosten ist, denn auf rein technischer Seite hat HBM etliche Vorteile für sich zu verzeichnen. Und mit der Architekturaufspaltung wird man zukünftig auch kein Abfallprodukt a la Radeon VII mehr erwarten können, sondern muss warten, bis nVidia oder AMD tatsächlich gezielt HBM in den Consumer-Markt bringen werden.
Ich würde zumindest vermuten, sofern nicht etwas wie GDDR7 überraschend schnell kommt (oder Micron ihren OC-GDDR6 noch stark weiteroptimieren kann) oder aber man die Caches einfach noch und nochmals größer macht um weiterhin mit GDDR6 günstig wegkommen zu können, dass die übernächste GPU-Gen (2024?) zumindest im HighEnd mit HBM aufwarten wird.

Btw ... Intel hat hier ja schon mit Sapphire Rapids SP skizziert was kommen wird. Eine Tile-basierte via EMIB-zusammengesetzte CPU, deren Tiles wahrscheinlich vollstädiges I/O besitzen werden, also grob vermutet 16 PCIe 5.0 Lanes pro Tile zzgl. zwei DDR5-Controllern und zusammengesetzt bis zu vier Tiles pro CPU.
Zudem darf man vermuten, dass sofern es nicht einen separaten Tile geben wird, dass jeder Tile zusätzlich über einen HBM2-Controller/PHY verfügen wird, um einen HBM2-Stack anbinden zu können. Die volle CPU kann also 64 GiB (bestenfalls wäre gar 96 GiB möglich) HBM2 auf dem Package haben, die als L4$ fungieren können und das Speichersubsystem damit drastisch beschleunigen dürften, was vor allem für AI-Workloads vorgehen sein wird. Darüber hinaus erklärte man aber auch schon, dass ein DRAM-less Mode möglich sein soll, d. h. die CPU läuft ausschließlich mit dem HBM2 als LastLevel-Speicher ohne DRAM.
Ein HEDT-Ableger davon mit bspw. nur zwei CPU-Tiles und 32 GiB HBM2 mit vielleicht 500+ GiB/s Speicherbandbreite klingt schon ein wengi verrückt. ;-)

Und zukünftige Designs werden gar noch komplexer. Von Meteor Lake weiß man schon, dass es ein Compute-Tile gibt, jedoch auch dass das Design Foveros nutzen wird, d. h. es wird interessant, was uns hier in Zukunft erwartet, wobei man aber auch nüchtern sagen muss, dass das leistungstechnisch schon alles weit über den einfachen Consumer-Bedarf hinausgeht ... ja,ja, ich weiß, so mancher wird ja dennoch nicht müde zu behaupten "es gibt nie genug" ;-)
 
Zuletzt bearbeitet:
AMD hat auch nichts zu verschenken, die ALU-Werte sind mir etwas zu utopisch im Vergleich zu heute.

5120 ALUs, 160-192 MB IC für eine 7700 XT (Vollausbau)
4608 ALUs, 128-160 MB IC für eine 7700 (Teilverwertung)
3840 ALUs, 128 MB IC für eine 7600 XT (Vollausbau)
3200 ALUs (eher 2560), 96-128 MB IC für eine 7600 (Teilverwertung)

Damit wäre man im Einstiegs- und Midrange-Bereich locker bei 80% - 100% über heutiger Leistung.

Selbst bei 6nm muss AMD auf die Kosten achten und die Chipgrößen im Zaum halten.

Der Infinity Cache könnte als gesonderter Chip natürlich anwachsen.
Aber auch hier, warum soll AMD 512 MB "verschenken", wenn 256 MB für das Topmodell auch schon eine Verdopplung wären? Max sind vielleicht 384 MB drin.
Wenns dazu eh schon schnelleren RAM gibt, dann wäre das Verschwendung.

Die Top-Modell könnten natürlich so stark anwachsen, dank Multi-Chip. Aber ganz ehrlich, die werden 1500 Euro + kosten und das wäre der Preis in normalen Zeiten, aktuell würde die Karte für 3500 - 4000 über den Tisch gehen.

Aber auch die Multichips müssen produziert werden und ich will nicht wissen wie hoch der Ausschuss ist bei 5120 ALUs auf einem Chip, geschweige denn wenn noch mehr ALUs drauf sein sollen.

2023 ist schließlich auch noch ein Jahr und da will AMD bestimmt RX 8xxx verkaufen, das könnten die mit leicht höherem IC und ALU Vollausbau machen, ohne eine neue Archtiketur in den Markt zu werfen. + evtl. GDDR7 und fertig ist die Laube.
 
Zuletzt bearbeitet:
Was passt dir bei den ALUs denn nicht?

Wer sagt denn, daß es eine Cache-Die mit 512MB geben muß?

Die Cache-Die könnte auch nur 256MB groß sein und bei den wenigen Top-Karten stapelt man da 2 Dice.
 
Was passt dir bei den ALUs denn nicht?

Die Produktion davon sagt mir, dass es die so nur zu hohen Preisen geben wird und der Stromverbrauch muss ja auch noch im Zaum gehalten werden.

Mit Multichip ist das zwar entschärft, aber dennoch sind das (auf heutige Werte bezogen) High-End-Chips die 5000 und mehr ALUs haben sollen. Wie gesagt, dass erhöht den Ausschuss und damit erhöht es die Kosten.

Also MUSS es kleinere Chips geben, die man eher in Einstiegskarten verbaut, d.h. Einstiegskarten werden keine 5000 ALUs haben.


Wer sagt denn, daß es eine Cache-Die mit 512MB geben muß?
Ich sage das nicht, die Gerüchteküche. Ich halte das für überzogen, aber da es ein extra Modul sein wird (momentan redet man nur von 1 nicht von mehreren), kann es schon möglich sein. Die Frage ist auch hier wieder zu welchem Preis und warum sollte AMD das machen (außer um nvidia in die Schranken zu weisen).

Die Cache-Die könnte auch nur 256MB groß sein und bei den wenigen Top-Karten stapelt man da 2 Dice.
Das stimmt, nur beim stapeln sind wir da glaube ich noch nicht. Wenn 2 einzelne Caches wie einer angesprochen werden können (also von allen Einheiten) dann macht das Sinn. Aber denke Latenzen beim Zugriff mehrerer Module stehen dem im Weg (muss schließlich koordiniert werden), daher wären es dann eher jeweils 256 MB je Recheneinheit, was keinesfalls 100% 512 MB entspricht (da Daten doppelt vorhanden sein können).

In der absoluten High-End-GPU könnte ich mir das vorstellen, aber das wird kosten.

Ich freue mich jedenfalls auf die neuen Einstiegskarten. Sollte es eine 7600 oder 7600 XT mit den Daten geben, dann wäre ich mehr als happy, das wären ~100% mehr Leistung zu jetzigen GPUs.

Bei den aktuellen Preisen reizen mich die 6xxx leider nicht. Eine kommende RX 6600 XT hat mir mit 32 MB zu wenig IC (nutze WQHD). Daher ist meine obige Annahme von 96-128 MB IC für ne 7600 schon sehr optimistisch, realistisch werden es wohl eher 64 - 96 sein.
 
Also MUSS es kleinere Chips geben, die man eher in Einstiegskarten verbaut, d.h. Einstiegskarten werden keine 5000 ALUs haben.
Wer sagt denn, daß man dafür nicht erstmal bei einer kleinen RDNA2-GPU bleibt?
Ich sage das nicht, die Gerüchteküche.
Ob der Cache gestapelt wird geht aus dem Gerücht nicht hervor.
Aber denke Latenzen beim Zugriff mehrerer Module stehen dem im Weg (muss schließlich koordiniert werden), daher wären es dann eher jeweils 256 MB je Recheneinheit, was keinesfalls 100% 512 MB entspricht (da Daten doppelt vorhanden sein können).
Damit liegst du falsch!
 
Zurück