Die Architektur muss für den höheren shadercount ausgelegt sein
Ach, RDNA 4 ist nicht für größere Shader-Counts ausgelegt? Seltsam, dass AMD in dem Fall ja Navi 41 und Navi 42 in Entwicklung hatte.
AMD hat mit RDNA 1 bereits die Architektur weitgehend so überarbeitet, dass sie entsprechende Limitierungen, die es noch bei GCN gab, nicht mehr haben. GCN war darauf ausgelegt, dass es maximal 4 Shader-Arrays gibt und ebenso maximal 64 ROPs. Durch das Auflösen von Strukturen und das integrieren der ROPs in die Shader-Arrays, kann AMD seit dem die Shader-Arrays quasi beliebig skalieren.
Wenn es so einfach wär hätte man es auch gebracht.
Navi 41 und Navi 42 sind - wenn man nach allen Informationen geht, die so rum flattern - nicht gekommen, weil das Multi-Chip-Konzept nicht vollendens aufgegangen ist und man gewisse Probleme per Software lösen wollte, das aber nicht geklappt hat und man diese Probleme auf Hardware-Ebene lösen muss.
Navi 48 ist dann ein verdoppelter Navi 44 und eine "Notlösung".
Selbst wenn 9070xt 50% mehr Stader hätte wäre sie bei weitem immer noch abgeschlagen hinter der 5090...
Das Dumme an den Shadern ist, dass es darauf an kommt, wie gut sie am Ende wirklich skalieren und das ist von einigen Faktoren abhängig. Eine RTX 4090 und eine RTX 5090 können in der Regel ihre Schlagkraft garnicht umsetzen, weil die gesammt Maße an Pixeln fehlt. Wirklich absetzen können sich diese Karten quasi erst in 4K und darüber hinaus.
Die Anzahl der Threads und darauf aufbauend die Wave- bzw. Warp Fronten die aufgemacht werden können und wie diese laufen.
AMD schafft von der 9060XT zur 9070XT +82% Performance bei +100% Shader, Speicherinterface ist auch passenderweise verdoppelt.
Auch wenn du im weiten alles gut beschreibst, hast du da einen Fehler gerade noch drin und unterschlägst den Taktunterschied zwischen der 9060 XT und der 9070 XT. Die 9060 XT kann im Mittel knapp 10 % höher takten als die 9070 XT. Das müsstest du in der Betrachtung noch mit einbeziehen. +100 % Shader, - 8 % Takt => + 82 % Performance.
Nimmt man das als "Basis", dann werden aus + 100 % Shader 90 % an Leistungs gezogen. Am Ende ist das allerdings weitgehend auch Makulatur, weil der Vergleich zwischen 9060 XT und 9070 XT "kleine" Chips betrifft und in der Regel hier die Skalierung in der Regel deutlich besser ist.
Bei einer fiktiven 9080 XT / 9090 XT sieht das Spiel dann noch mal anders aus. In 1080p und 1440p könnten wir eher davon ausgehen, dass die Skalierung schlechter ausfällt, in 2160p könnte die Skalierung besser ausehen.
also wieder mal eine "große" Änderung der Architektur kann ich mir fast nicht vorstellen, die gleichen eingefahrenen Größen wiederzufinden.
Auch wenn PCGH mal hier zu UDNA schrieb, dass es wohl wieder auf CU mit 4 Vec16-ALUs zurück geht, glaube ich an der Stelle weitgehend genau daran nicht und habe Aussagen von AMD 2019 im Ohr.
Bereits 2019 beim Erscheinen von RDNA kam die Frage auf, warum AMD GCN in RDNA und CDNA getrennt hat und ob RDNA auch für den HPC-Markt geeignet wäre. Die damalige Aussage von AMD war nur, dass die Probleme beim Gaming-Workloads von GCN eben nicht den HPC-Markt betreffen und man daher bei GCN bleiben kann.
Leider wurde daraus an zu vielen Stellen daraus gemacht, dass RDNA sich ja für HPC nicht eigenen würde - was absoluter Bullshit ist. Jetzt erwächst aus diesen damals gemachten Fehlinterpretationen, dass UDNA quasi ein Rückschritt zu GCN wäre.
2019 traf AMD allerdings bereits die Aussage, dass auf lange Sicht RDNA und CDNA wieder zusammen geführt werden und das RDNA durchaus auch für HPC geeinget ist, nur dass man es da halt nicht braucht. Und das RDNA durchaus auch HPC kann, sieht man nun 6 Jahre später relativ gut, weil neue Treiber, Software-Optimierungen im OpenCL-Stack und jetzt auch ROCm, dass damals die Vega-Karten mit der RX 5700 den Boden gewischt haben, weil sie eben quasi die doppelte Rechenleistung auf die Straße brachten.
Und eine wichtige Aussage spricht auch gegen eine Rückkehr von GCN durch CDNA in UDNA: Warp32. Nvidia hat egal ob Spiele oder HPC-Entwickler auf Warp32 eingeschworen. RDNA ist für Wave32 und Wave64 optimiert. GCN war Wave64-Optimiert und auch CDNA ist Wave64 optimiert. Würde man UDNA auf CDNA aufbauen und GCN damit zurück bringen, würde AMD viele ihre Optimierungen, die sie seit 2019 gemacht haben, auf einen Schlag verlieren.
Es ist für AMD einfacher RDNA zu UDNA weiter zu Entwickeln und Bestandteile von CDNA einfließen zu lassen, als umgekehrt.
Ist damit nun auch bei UDNA der Multichip-Ansatz ganz vom Tisch?
Es gibt an der Stelle aktuell zu viele Gerüchte und Mutmaßungen. Fest steht, dass Multi-Chip-Ansatz bei den GPUs ein Stück komplizierter ist als bei CPUs. Nur was genau passiert und kommt, wird man sehen.
Es kann auch sein, dass die aktuellen Lösungen für Multi-Chip-GPUs einfach noch zu "teuer" sind. Mit MI300 hat AMD ja eine Multi-GPU die im HPC auch super skaliert. Hier werden aber Base-Tiles mit den MC und Infinity-Cache verwendet, darauf sitzen dann die GCD und zwei Base-tiles werden über eine Bridge verbunden. Das verursacht alles Fertigungskosten.
Die klassische Verbindung über den Interposer wie nun bei RDNA 3 hat Schwächen, die anderen Ansätze verursachen kosten und es könnte daher für AMD aktuell wirtschaftlicher sein bei den GPUs weiterhin auf Monolithen zu setzen, bis die Kosten für Packageing sinken. Denn AMD und Nvidia sowie auch Intel haben da einen massiven Bedarf und Nvidia und AMD für komplexeres Packageing bei den großen Server-GPUs.