Ja aber nicht gebracht, musste einen Grund gehabt haben.
Wenn man sich auch mit der Materie befasst und auch alle Informationshappen mal mit nimmt, dann gibt es genug Indizien, die erklären, warum Navi 41 und Navi 42 nicht gekommen sind und die Gründe dafür habe ich auch benannt.
Genau quasi ein Zitat später:
Navi 41 und Navi 42 sind - wenn man nach allen Informationen geht, die so rum flattern - nicht gekommen, weil das Multi-Chip-Konzept nicht vollendens aufgegangen ist und man gewisse Probleme per Software lösen wollte
Was nichts an der Richtigkeit meiner Aussage ändert, wärs so einfach hätte man es auch gebracht.
Ich wiederhole mich sehr gerne noch mal, dass Navi 41 und Navi 42 nicht gekommen sind, hat nichts mit dem CU-Count zutun. Man muss sich an der Stelle nur damit befassen, wie die Pixel verarbeitet und in Gruppen zusammeng gefasst werden.
Navi 41 und Navi 42 sollten Multi-Chiplett-GPUs werden und hier gab es Skalierungsprobleme, so dass die Chipletts nicht so skalierten, wie sie sollten. Die Probleme wollte man per Softwarelösen, das ging aber nicht, wodurch Hardwarelösungen kommen müssen.
Navi 48 wiederum ist eine Notfalllösung und ein verdoppelter Navi 44 - was an der Stelle sogar relativ einfach ist umzusetzen. Alle andere Lösungen hätten ein umfassenders Redesign erfordert, dass wesentlich länger gedauert hätte.
Ist ja nicht so das NV das Problem nicht hat, siehe 4080 -> 4090 und 5080 -> 5090 was je nach Game oft sehr bescheiden skaliert. Man muss so einen fetten Chip auch füttern und auslasten können.
Und, verstehst du auch, warum die Vega 64 damals - GCN allgemein - Auslastungsprobleme hatte, ebenso warum eine RTX 4090 und RTX 5090 diese Probleme haben und woher diese Probleme kommen, oder stocherst du nur im dunklen, damit du irgendwie recht behalten kannst, statt zu aktzeptieren, dass die Probleme bei Navi 41 und Navi 42 mit sehr hoher Wahrscheinlichkeit nichts mit der Anzahl der Shader zutun hatte, sondern mit dem Chiplett-Ansatz.
Wie gut eine große GPU ausgelastet werden kann hängt von vielen Faktoren ab, darunter die Anzahl der Pixel - Auflösung - als auch die Anzahl der Shader und wie diese geclustert werden könnnen. Eine SM benötigt vier Warps, eine CU benötigt zwei Waves.
RTX 4090 hat 128 SM, die RTX 5090 170 SM, im ganzen also 512 Warps oder 680 Waprs, die zusammen kommen müssen, damit die Karte ausgelastet wird. Bei der RX 9070 XT sind es 128 Waves. Pro Wave/Warp eben bis zu 32/64 Werte. Je weniger CU/SM eine Karte hat, um so einfacher ist sie auszulasten. AD102 und GB202 benötigen also die passende Anzahl an Shader-Programme, sowie die Auflösung, damit genug Warps zusammen kommen. Vor diesem Problem stand AMD - mit GCN und Vega 64 - und hat deswegen die CU umgebaut.
Das sind allerdings allgemeine Probleme, vor denen AMD, Intel und Nvidia stehen und die man nur durch Umorganistation der Rechenwerke lösen kann. AMD ging von Vec16 auf Vec32, Nvidia hat mit Maxwell auf das heutige System mit 4 Tiles a 32 Rechenwerke umgestellt und Intel zu letzt von Vec8 auf Vec16 um die Auslastung zu verbessern.
Für AMD ist es an der Stelle nicht schwerer potenziell eine 96 CU auszulasten wie es für Nvidia mit 96 SM ist, theoretisch ist es für AMD sogar etwas einfacher, da sie weniger Waves benötigen.
AMD hat nur keine 96 CU oder 128 CU dieses mal gebracht, weil die Chips, die diese Anzahl haben sollten, auf Chipletts setzen sollten und damit andere Probleme für die Skalierung hinzu kommen, die mit der Kommunikation innerhalb der Chiplets zutun haben. Bereits bei RDNA hat sich gezeigt, dass die der "interen" Fabric bei einem GCD + MCD-Design ca. 10 % die Latenzen erhöht und dass muss entsprechend aufgefangen werden - mehr Takt im Fabric - wodruch AMD auch hier plötzlich asynchrone Taktraten hatte. Die Shader/CU takten langsamer als der Rest des Chips, damit die Daten entsprechend schnell genug ankommen.
Und genau hier hat es bei RDNA 4 gekracht. Nach den Informationen die umher schwirren, gab es bei RDNA 4 potenziell 3 mögliche aufbauten:
GCD + GCD, wobei jede GCD eine vollwerige GPU gewesen wäre. Verbindung über den L2-Cache.
GCD + GCD + MCD, Verbindung der GCDs erneut über den L2-Cache, MCD mit dem Infinty-Cache.
GCD + MCD, wie bei RDNA 3.
Die Gerüchte gehen aktuell von GCD + GCD aus und da zeigte sich eben, dass GCD + GCD eben nicht so skaliert, wie AMD es erwartet hat. Das liegt an der Stelle aber nicht an dem CU-Count, sondern der Verbindung zwischen den GCDs. Als man das feststellte, wurde versucht die Probleme im Treiber zu lösen, das brachte allerdings nicht den Erfolg, wodurch hier eine Lösung auf Hardware-Ebene her muss. Da sowas sich aber bei RDNA 4 nicht mehr hat umsetzen lassen, wurde der kleinste Navi 44 "verdoppelt" - an der Stelle die einfachste Lösung. Vollständig neue Chips mit nun 80 CU - Navi 21 - oder gar 96 CU Navi 31 - zu entwerfen, hätte deutlich mehr Arbeit gemacht, weil hier ggf. die Menge der Caches und andere Faktoren noch mal hätten angefasst werden müssen und das deutlich länger dauert.
Und dazu kommen halt wirtschaftliche Überlegungen und auch wenn die uns nicht gefallen, die Lösungen die AMD für CDNA nutzt, wären für Consumer-Grafikkarten vermutlich zu teuer, gerade auch mit dem Blick, dass man mit den Mi-Karten deutlich mehr verdient.
Nur das es für AMD und Intel an der Stelle deutlich einfacher ist aufzuholen, vielleicht sogar zu überholen, als es für Nvidia ist vorne zu bleiben. Die "relevanten" Hauptfähigkeiten bei RT brachte Nvidia mit Ada Lovelace. SER und die OMM. Beides sind nun Funktionen, die in der Shader Language 6.9 sowie damit DX 1.2 Einzug halten und damit Funktionen, die AMD und Intel "adaptieren" können.
Blackwell brachte für RT zwar neue Funktionen, nur werden viele diese Funktionen auch bereits ab Turing unterstützt. Blackwell enthält dann spezifische Anpassungen für diese Funktionen, die es effizienter machen, doch gibt es die Funktionen auch bei Ada Lovelace.
Dazu kommt, dass Turing, Ampere und Ada Lovelace etwas konnten, was Blackwell nun nicht mehr kann: FP und INT-Berechnungen zur gleichen Zeit. Blackwell kann - wie Maxwell und Pascall davor - nur FP oder Int.
Naja zwischen 3000 und 4000 gab's auch einen guten Fertigungssprung, 4000 und 5000 sind quasi gleich. Bei 6000 gibt's wieder einen.
Ja und? Selbst ohne Fertigungssprung hat Nvidia bereits zweimal geziegt, dass man sowohl die Rechenleistung als auch die Effizienz steigern kann.
Kepler und Maxwell wurden beide in der selben Fertigung bei TSMC bezogen, dennoch ist Maxwell deutlich effizienter unter Leistungsfähiger als Kepler und hatte damals sogar Verkleinerung der Chips mit gebracht. Hier hat Nvidia die Struktur der SMX zu den SM angepasst und damit Effizienz und Leistung gewonnen.
Ist halt wie Turing (2080ti) damals, da gab's auch nur einen kleinen rohen Performance-Sprung, mit dlss und rt wusste man noch nichts anzufangen.
Und dennoch hat auch hier Nvidia erneut gezeigt, dass man die Chips effizienter bekommt als die der Vorgänger, obwohl man bei der gleichen Fertigung bleibt. Die RTX 2080 Ti war knapp 10 - 15 % effizienter als die 1080 und fast 20 % als die 1080 Ti. Es war also möglich.
Und auch AMD zeigt mit RDNA 2 - N7 - und ebenso nun, dass es durchaus geht.