AMD Radeon RX 6000: Navi Flounder mit 40 CU?

Mal ne Frage:

Es kommt doch sicher auf's Spiel, bzw. die Engine an, ob nun viele CU + wenig Takt,
oder wenig CU + viel Takt ein besseres Ergebnis liefern?
Das Spiel haben wir doch gerade bei PS5 vs. SX

Sofern ja, muss ein GPU Hersteller sich wohl entscheiden was sinniger ist und wo die Reise der Engines hin tendiert.
(Wobei auf "künftig geht das gut" zu setzen halt schlecht für den Start und somit auch Verkauf ist, dafür gut für Langzeitnutzer)
Grundlegend werden wir vermutlich in Zukunft mehr von FP32 Berechnungseinheiten haben. Wenn ich es richtig verstehe sind viele Features der angekündigten Unreal Engine 5 wie zum Beispiel Nanite sehr FP32 Rechenintensiv.
 
Es ging mir um den Preis.
Also willst du eine Alternative zu RT-Cores haben? Die werden wir ja sicherlich bei AMD sehen. Die werden bestimmt nicht genau den gleichen Aufbau der dedizierten Hardware haben. Laut Microsoft scheint AMD auch nur die Ray-Intersection Abfragen zu beschleunigen und nicht die BVH Berechnung.
 
Also willst du eine Alternative zu RT-Cores haben? Die werden wir ja sicherlich bei AMD sehen. Die werden bestimmt nicht genau den gleichen Aufbau der dedizierten Hardware haben. Laut Microsoft scheint AMD auch nur die Ray-Intersection Abfragen zu beschleunigen und nicht die BVH Berechnung.

Nein, ich merke gerade, dass ich im ersten Kommentar statt "ohne" ein "von" geschrieben habe.
Eigentlich meinte ich eine Grafikkarte ohne Raytracing Möglichkeiten, die dafür aber günstiger ist.
 
Nein, ich merke gerade, dass ich im ersten Kommentar statt "ohne" ein "von" geschrieben habe.
Eigentlich meinte ich eine Grafikkarte ohne Raytracing Möglichkeiten, die dafür aber günstiger ist.
Jetzt verstehe ich was du meinst. Das wäre natürlich eine Interessante Idee. Aber da die dedizierte Hardware für Raytracing direkt in die Shader-Cores eingebaut ist (Zumindest gehen wir davon aus) würde man für eine Grafikkarte ohne Raytracing einen abgeänderte Grafikkartenarchitektur benötigen, wessen Entwicklung die Grafikkarte vermutlich teurer machen würde als wenn man einfach die dedizierte Hardware Unterstützung einfach drin lässt.

Die Kosten für die Hardwareunterstützung werden vermutlich marginal sein. Es sind eher die Kosten des R&D die an den Kunden weitergegeben werden.

Edit: Da war wohl jemand schneller :D
 
Ich weiß nicht, warum ihr hier über HBM rätselt.
Die Sachlage ist doch nun seit langem klar:


Sienna Cichlid ist Big Navi und bekommt GDDR6 Speicher und das recht wahrscheinlich mit einem 256Bit Interface. Alles andere ist Wunschdenken.

Die Frage ist nur, wie AMD gedenkt diesen Flaschenhals zu umgehen. Da steht halt Infinity Cache im Raum. Die Infos dazu verdichten sich ebenso.

Mir kommt es ehr so vor als werden gezielt falsch Infos gestreut, was die Informationssachlage bezüglich GDDR6 nicht besser macht, die von HBM aber auch nicht bekräftigt.

Die 6900 XT wird mit max. 84 CUs kommen also 5.376 Shadern. Alle Hinweise zeigen auf 80 CUs also 5.120 Shadern. Das ganze wird dann bei um die 2.000 MHz im Boost-Takt laufen. Einige spekulieren sogar über 2.200+ MHz aber das wird vermutlich massiv an Leistung kosten und ordentlich gekühlt werden müssen.

Ja hört sich realistisch an aber genau dabei macht die Speicher Mutmaßung mit GDDR6 bei 256 Bit einfach keinen Sinn finde ich..

Irgendwas passt da nicht, oder wird bewusst falsch als Gerücht gestreut.
 
Bislang sind das alles nur Gerüchte. Würde mich nicht wundern, wenn die Shader SMT-fähig und bis zu 32GiB HBM2e drauf verbaut wären.

Ich hoffe auf 80/84 CUs und 16/32GiB HBM2e auf der Platinengröße einer Fury. Dazu noch einen passenden Wasserkühler und ich bin glücklich. Dann kommt auf den X570 auch ein Wakü-Block und es herrscht endlich Ruhe.
 
Bislang sind das alles nur Gerüchte. Würde mich nicht wundern, wenn die Shader SMT-fähig und bis zu 32GiB HBM2e drauf verbaut wären.

Ich hoffe auf 80/84 CUs und 16/32GiB HBM2e auf der Platinengröße einer Fury. Dazu noch einen passenden Wasserkühler und ich bin glücklich. Dann kommt auf den X570 auch ein Wakü-Block und es herrscht endlich Ruhe.
Bei 32GB HBM2e und Shader die SMT-fähig sind (Wie auch immer das gehen soll) fang schonmal an die 2.000€ hinter dem Kamin herzuholen :D
 
Soviel teuer als der GDDR6X kann es auch nicht sein. und warum sollte SMT mehr kosten? Bei NV sind die FP32 Einheiten doppelt vorhanden und die 3080 kostet auch keine 2000€.
Und du denkst wirklich, dass der ganze R&D Kram für die implementation von HBM2e in die RDNA2 Architektur so wie die Entwicklung von SMT für FP32 Berechnungseinheiten einfach so von AMD übernommen werden?

Da sitzen Leute hinter die sich teuer bezahlen lassen wenn sie solche Techniken entwickeln sollen und im Endeffekt ist das der Punkt welcher die Kosten der Grafikkarten erhöhen wird.
 
Hört bitte auf, auf HBM zu hoffen...
Das hier sollte eigentlich alles sagen.
Trotz der Schrauben!
Wenn der Hype Train jetzt schon wieder eskaliert wird nachher wieder nur gemosert.

Wenn die Karte so Grob im Bereich der 3080 liegt können wir echt glücklich und zufrieden sein, und vor allem wäre das dann mmn. immernoch ein sehr gelungenes GPU-Comeback von AMD.

Das Bild zeigt eine Karte mit 256 Bit Speicherinterface, mehr nicht.
Ich weigere mich zu glauben, dass AMD derart bescheuert wäre, eine Big-Navi mit diesem Mini Si zu bringen.
Viel mehr Rechenleistung als bei der Bandbreitenlimitierten 5700xt aber das gleiche kleine Speicherinterface. Kein Cache kann das ausgleichen.

Das Bild zeigt, dass die Chips weiter vom DIE weg liegen als es für HBM üblich ist. Dementsprechend ist die Wahrscheinlichkeit für HBM extrem gering.

wat ???
Ich habe ja auch nicht geschrieben, dass man auf dem Bild eine eine Karte mit HBM sieht.
Ich halte das für eine kleinere RDNA2 Karte, die eben mit GDDR6 (vmtl. 8GB) auf einem 256 Bit Speicherinterface kommt und die 5700(xt) beerben wird.
 
Zuletzt bearbeitet:
Das Bild zeigt eine Karte mit 256 Bit Speicherinterface, mehr nicht.
Ich weitere mich zu glauben, dass AMD derart bescheuert wäre, eine Big-Navi mit diesem Mini Si zu bringen.
Viel mehr Rechenleistung als bei der Bandbreitenlimitierten 5700xt aber das gleiche kleine Speicherinterface. Kein Cache das ausgleichen.
Das Bild zeigt, dass die Chips weiter vom DIE weg liegen als es für HBM üblich ist. Dementsprechend ist die Wahrscheinlichkeit für HBM extrem gering.
 
So wie ich AMD kenne wird die Karte ab Werk etwas enttäuschend sein und erst nach dem undervolt und der AMD Typischen Leistungssteigerung nach dem UV klasse sein. Sprich, der Verbrauch wird um 50W gesenkt, während die Performance um up to 10% erhöht wird. (so ungefähr) Vermutlich werden sich 3080 UV vs Big Navi UV nicht so viel nehmen.
Diesmal denke ich das nicht.
Das war bei Vega damals noch so, bei RDNA1 war es schon eher nicht mehr so und jetzt werden die angreifen und versuchen auf's Ganze zu gehen. Man weiß doch, dass das wichtigste was zählt die Day1-Benchmarks sind. Wer die schnellere Referenz-Karte hat, gewinnt. Da muss von Haus aus schon an die Kotzgrenze gegangen werden, siehe auch die Zen-CPUs. Da ist nicht mehr viel mit Übertakten. Straffes Werks-OC ist angesagt.

Aus dem gleichen Grund ist Nvidia bei Turing auch vom Blower-Design weggegangen, hat zwei riesige Axiallüfter draufgenagelt, hat die Karten werksübertaktet und das Powerlimit erhöht. Bei Ampere jetzt nochmal das gleiche nur ne Nummer krasser. Powerlimit extrem erhöht und noch fettere Lüfter genommen. Hat dann in den Day1-Benchmarks auch ordentlich reingeknallt.

AMD wird das gleiche versuchen.
Man hat das Design ja auch schon gesehen.
3 Axiallüfter und ein fetter Kühler.
Da wird was gehen.
 
Ich halte das für eine kleinere RDNA2 Karte, die eben mit GDDR6 (vmtl. 8GB) auf einem 256 Bit Speicherinterface kommt und die 5700(xt) beerben wird.
Dazu würde allerdings nicht passen, dass der Aufkleber auf der Karte ganz klar "Typical Samsung 16GB" sagt.
Die Karte ist auch volle Baulänge... also ich bin mir relativ sicher, dass wir hier Navi21 sehen.
Fürs ausbügeln des schmalen Speicherinterface soll ja dann der Infinity Cache zuständig sein.
 
Ist aber ein Dev-Board. Die sind immer anders als die finalen. Da sieht man ja auch viele Messpunkte undso dran.
Klar, ein paar Änderungen hier und da werden sie sicher noch vornehmen. Stiftleisten entfernen und dies und das...

Aber ich denke weder, dass die Karte dadurch großartig kürzer wird noch, dass es ein NOCH fetteres Prototypen Board geben wird.
Bei Vega haben sie ja auch z.B. die Pads für die ganzen Engeneering-Steckverbinder etc. auch einfach auf dem Referenz-PCB draufgelassen, nur halt nicht mehr bestückt.
 
Wenn das so stimmt mit 220mm² dann hat die RX 6900Xt mehr Shader als bisher angenommen! Und da ist ja schon Raytracing mit drin! Ich glaube das gibt eine böse Überraschung für Nvidia! Würde rein spekulativ auf Leistung > 3090 hinauslaufen!

Nimmt man die gemittelte Transistordichte als Basis (was anderes bleibt einem in Ermangelung besserer Daten auch nicht übrig ;-)), dann errechnet man für die Xbox CUs inkl. L2, etc. ~ 171 mm2 und damit ~ 130 MTr/RDNA2-CU. Im Vergleich zu Navi 10 hat sich da Transistortechnisch kaum was geändert, bzw. konkret rechnet man für Navi 10 auf dieser Basis gar 148 MTr/CU aus. Die Raytracing-Intersection-Engines benötigen also tatsächlich nicht viel Platz, wie Microsoft schon erwähnte. ;-)
Entsprechend kann man auch abschätzen, dass die SoCs keinen "InfinityCache" haben werden, denn dieser würde den Transistorwert beträchtlich verschieben. Das Konsolen-SoC wird wohl mit üblichen 4 - 8 MiB L2 ausgestattet sein.

Die Annahme der 220 mm2 für das Xbox-SoC als Ausgangsbasis sind übrigens recht problematisch. Tatsächlich handelt es sich bei dem SoC im wesentlichen um eine GPU, die über zwei zusätzliche CCXe und ein wenig mehr I/O verfügt. Konkret sieht es etwa grob folgendermaßen aus:
o reine GPU (CUs, L2, etc.) ~ 171 mm2
o 10 x GDDR6 PHY ~ 65 mm2
o 2 x Memory Contoller (und SoC Fabric Coherency) ~ 26 mm2
o MultiMedia & HW-Acceleration ~ 20 mm2
Alle diese Elemente kann man für eine RDNA2-GPU-Abschätzung anrechnen. Beispielsweise auf Navi 10 nimmt der Teil PCIe/Display Controller/Video Engine bereits um die 39 mm2 in Anspruch.
Im Wesentlichen würde ich Abstriche bei dem Block Memory Cotnroller und SoC Fabric Coherency machen, denn ein nennenswerter Teil davon wird SoC-spezifisch sein.

Gehe ich nun in einer exemplarischen Rechnung von einem 80 CU Vollausbau aus (d. h. die größte GPU wird ggf. 76 - 78 CUs besitzen), kann man folgendermaßen spekulieren:
o GPU-Kern mit 80 CUs ~ 316 mm2 (den vermuteten L2 der Xbox rausgerechnet)
o 8x GDDR6-PHY ~ 52 mm2
o 2x Speichercontroller ~ 18 mm2 (etwas verkleinert, die Controller von Navi 10 sind deutlich kleiner, der SoC-Coherency-Teil scheint hier viel in Anspruch zu nehmen)
o PCIe, Display & Video ~ 36 mm2
---------------------
422 mm2 ohne L2-Cache

Sollte dieses 256 Bit-Speicherinterface nun tatsächlich zutreffen, dann ist etwas wie ein "InfinityCache" zwangsweise erforderlich, da die geringe Speicherbandbreite ansonsten die GPU verkrüppeln würde. Leitet man hier von den 32 MiB im Zen2-CCD ab und erhöht die Transistordichte geringfügig, dann kommt man raus bei etwa (ich erspare mir Bereichsangaben, da es eh alles nur grobe Abschätzungen sind):
o 64 MiB ~ 63 mm2 --> ~ 485 mm2
o 96 MiB ~ 95 mm2 --> ~ 517 mm2
o 128 MiB ~ 126 mm2 --> ~ 548 mm2 für die komplette GPU

Hier wurde implizit durchgehend mit den gemittelten 42,5 MTr/mm2 des Xbox-SoCs gerechnet (also N7 bzw. ggf. N7P für die dGPUs, die Konsolen haben nichts mit EUV am Hut, für die dGPUs ist das ebenso eher unwahrscheinlich). Für die letzte Variante würde sich damit eine GPU mit ~ 23,3 Mrd. Transistoren ergeben, was mehr als das doppelte ist im Vergleich zu einem doppelten Navi 10, was der SI-Verkleinerung und dann dem übergroßen L2 zuzuschreiben wäre. AMD würde hier also den Aufwand bzgl. des Speicherinterfaces und auf dem PCB effektiv gegen zusätzliche Chipfläche auf dem Wafer eintauschen, was kein abwegiger Ansatz ist, da AMD ein leistungsstarkes Produkt bieten will, aber dennoch gezwungen ist weniger Geld zu verlangen als der Konkurrent, d. h. die Fertigungskosten sind für AMD ein deutlich größeres Problem, was abseits dessen aber auch alleine schon aufgrund des deutlich kleineren Marktanteils ein triviale Folgerung darstellt.
Ebenso nachvollziehbar ist, dass AMD in diesem Falle eine +50%ige (bis +60%ige) Steigerung der Performance/Watt zwingend benötigt, denn andernfalls würde der Chip einem Heizkraftwerk gleichkommen und Ampere bei weitem übertreffen. Navi 10 mit 1,9 GHz Boost hat bereits um die 160 W TDP, d. h. ein doppelter Navi (mit etwas weniger PHY und einer Display Engine weniger) würde bei vielleicht min. 270 W TDP liegen, d. h. die gesamte Karte käme auf etwa 380+ W TBP. Im oberen Leistungssegment dienen diese Zugewinne also zu einem wesentlichen Teil dazu ein solches Design mit einem erträglichen Verbrauch realisieren zu können. Im mittleren Leistungssegment darf man sich dagegen auf deutlich sparsamere Karten freuen.
Man darf gespannt sein, was am Ende dabei rauskommt und wie das performen wird.

Mal ne Frage:
Es kommt doch sicher auf's Spiel, bzw. die Engine an, ob nun viele CU + wenig Takt,
oder wenig CU + viel Takt ein besseres Ergebnis liefern?
Das Spiel haben wir doch gerade bei PS5 vs. SX [...]

Den Punkt würde ich nicht überbewerten, denn die Entwickler haben auf dem PC keine Wahl und müssen mit dem arbeiten, was der jeweilge Anwender gerade nutzt. Darüber hinaus muss man auch berücksichtigen, in welchem Kontext diese Aussage von Cerny getätigt wurde. In seiner PS5-Präsentation ging es im Wesentlichen darum dem Publikum zu erklären, warum die deutlich kleinere GPU mit dem höheren Takt die bessere sein soll. ;-)
Die PS5 hat -31 % weniger CUs und +22 % mehr Takt. Cerny hat natürlich insofern recht, dass mit dem höheren Grundtakt auch alle andere GPU-Komponenten mit einem höhren Takt betrieben werden. Erwähnt hat er jedoch (bewusst) nicht, dass die GPU mit dem deutlich überzogenen Takt sich damit aber auch weit von ihrem betriebstechnischen SweetSpot entfernt und zunehmend ineffizienter wird.
Bezogen auf dGPUs bleibt zudem grundsätzlich keine andere Möglichkeit als mehr Funktionseinheiten parallel arbeiten zu lassen, da man GPUs aufgrund thermischer Limitierungen nicht so hoch takten lassen kann wie bspw. eine CPU. Will man also deutlich mehr Leistung anbieten, muss die GPU größer werden.
 
Zuletzt bearbeitet:
Ob hier im Juni schon eine Antwort auf so manch aufkommende Frage gegeben wurde?
SC_3DstackedMemory.jpg


Richtig gutes Video von Coreteks -> A Revolution in Graphics
 
Zurück