Es ist natürlich nicht einfach dies exakt miteinander zu vergleichen, aber eine gewisse Tendenz kann man schon daraus ableiten, wenn man ein wenig tiefer gräbt.
Ein kleines Beispiel: (Die Werte wurden anhand des TU116, bei dem es sich ebenfalls um einen Turing ohne Tensor / RT cores handelt ermittelt
Link)
TU106 (Turing) = 445mm2, TPCs 18, Shaders 2304, Tensor cores 288, RT cores 36
Nvidia benötigt z.B. eine Fläche (12nm) von ca. 1.95mm2 pro TPC (tensor 1.25 / RT 0.7) ---> 1 x TPC = 10.89mm2 TU106 - 1.95mm2 = 8.94mm2 (21.8%)
Bzw. 10.89 x 18 = 196mm2 davon sind 1.95 x 18 = 35mm2 (7.9% relativ 445mm2) für tensor / RT reserviert.
Klar die Tensor cores der dritten Gen. wie sie z.B.: beim GA102 (RTX3090) zum Einsatz kommen, sind entsprechend ca. um den Faktor 2 leistungsfähiger und benötigen demgegenüber auch mehr Platz auf dem Die.
Aber es wurden davon auch wiederum entsprechend weniger verbaut.
Daher kann man wohl trotzdem nicht davon ausgehen das mehr als 10% der Die Fläche für Tensor und RT cores benötigt werden. Was anhand des GA102 (628mm2) in etwa maximal 60mm2 ausmachen würde.
Das 384Bit, GDDR6, Speicherinterface macht wiederum ca. 20% der Die Fläche aus.
AMD hingegen benötigt nur ein 256Bit, GDDR6, Speicherinterface was entsprechend etwas Platz einspart. (6-7%?)
Benötigt aber wiederum min. 120mm2
bzw. 23% der Gesamtfläche von 520mm2 für den verbauten 128MB IF-Cache.
Also wenn man sich die Sache etwas näher betrachtet, kann man sehr wohl sagen das AMD was die Architektur anbelangt bezüglich der Rasterisierung überlegen ist. Auch wenn sicher keine Welten dazwischen liegen.
Auch das Argument das NVIDIA durch die Verwendung des Samsung 8nm stark benachteiligt wäre zieht nicht wirklich.
Prozessbereinigt nehmen sich die beiden Kontrahenten nämlich nicht allzu viel, wie man anhand des folgenden Beispiel sehen kann:
GA102
Samsung 8 nm
Transistors 28,300 million
Density 45.1M / mm²
Die Size 628 mm²
NAVI 21
TSMC 7 nm
Transistors
26,800 million
Density 51.5M / mm²
Die Size 520 mm²
Die Differenz in der Transistor density beträgt lediglich
14%
Hypothetisch wenn NVIDIA seinen GA102 in TSMC 7 nm anstatt in Samsung 8 nm Prozess, bei einer Größe von 520mm2 gebracht hätte, hätte dies wohl in etwa so ausgesehen.
28300 x 520 / 630 = 23360 x 51.5 / 45.1 =
26675 million.
Jetzt könnte man noch argumentieren das NVIDIA ca. 10 - 20% Takt rausholen könnte, wenn sie TSMC's 7nm Prozess verwenden würden.
Das mag schon sein, aber bei gleicher Fläche (520mm2) und selbem Verbrauch, auch wenn man die negativen Skalierungseffekte noch rausrechnet, hätte man da im besten Fall auch wiederum nur ein Nullsummenspiel.
Alles in allem sehe ich AMD daher momentan leicht vorne.
Aber jetzt kommt das Beste. Mit RDNA3 bzw. RX7000 werden sie voraussichtlich, wenn die Gerüchte den stimmen sollten, nicht nur neue Maßtäbe bezüglich der Effizienz und Leistungsfähigkeit setzten, sondern auch bei den Herstellungskosten dank des Chiplet Ansatzes die Nase vorne haben.
Denn beim MCM Design (Multi-Chip Module) wie er wohl bei NAVI 31 und 32 zur Anwendung kommen wird, wird wohl der Infinity cache auf ein separates Chiplet ausgelagert und wer weiß, vielleicht werden sie ebenso wie beim 3D-V-Cache bei den kommenden Zen 3+ Prozessoren mit optimierten Bibliotheken versehen, die eine um den Faktor 2 höhere Packdichte ermöglichen sollte.
Wenn es für den NAVI 31 gar die selben 64MB Cache-Chiplets wie bei Zen 3+ sein sollten und diese zusammen produziert würden, dann könnte es wohl folgendermaßen aussehen: 8 x 64MB Chiplet =512MB bei doppelter Packdichte in TSMC' 6nm Prozess.
32MB L3 Cache bei Zen 3 belegen ca. 30mm2, bei doppelter Packdichte wären das 15mm2 für 32MB bzw. ca. 30mm2 für 64MB. Also z.B: 6 x 64MB Chiplets für NAVI 32 und 8 x 64MB Chiplets für NAVI 31.
Da die Chiplets so klein sind und in einem ausgereiften Prozess (TSMC 6nm) produziert würden, sollten die Yield raten eigentlich außerordentlich gut sein und dies auch noch in einem günstigeren und vor allem verfügbaren Prozess.
Was wird so ein ca. 30mm2, 64MB Chiplet in der Produktion den Kosten.
Sicher keine 10$. Ich würde mal eher auf 5-10$ tippen.
Wenn man nun die 512MB IF Cache aus der Rechnung raus nimmt und bedenkt das NAVI 21 ohne diesen
in TSMC's 7nm Prozess nur 400mm2 groß wäre, inklusive eines 256 Bit SI.
Bei NAVI 31 mit ebenfalls einem 256 Bit SI und 3x so vielen Shadern würde das SI natürlich gerade was den Verbrauch anbelangt eine viel kleinere Rolle spielen.
Jetzt ist natürlich die große Frage, wie viel Fläche von den 400mm2 benötigt man den in etwa für ein 256 BIt SI.
Ein guter Schätzwert würde ich sagen so Pi x Daumen wären 15% das sind dann 400-60=340mm2
Allerdings müsste dieses wohl 2x verbaut werden, da es sich wohl um zwei identische Chiplet handelt, bei dem eines den aktivierten Komandoprozessor enthält, obwohl es nur einmal benötigt wird. (Eventuell auch 2x128 Bit SI aktiviert?)
Von der theoretischen Steigerung der Dichte um den Faktor 1.8 x (bezogen auf Logic Area) der durch die Verwendung von TSMC's N5 anstatt N7 entsteht, bleibt am Ende natürlich nur noch ein Bruchteil übrig. (siehe Zitat Anandtech)
Allerdings, aufgrund das die 512MB IF-Cache sozusagen ausgelagert wurden und das ein 256Bit SI eigentlich sehr klein ist (auch wenn es möglicherweise 2x oder doch nur 2x128Bit vorhaneden ist???) könnte ich mir trotzdem gut vorstellen, das der analoge, sd-ram Anteil prozentual doch deutlich geringer ausfallen könnte und damit die Angaben von Anandtech deutlich übertroffen werden könnten.
Ein guten Hinweis liefert auch das folgende Beispiel anhand eines Vega64 (495mm2, 12.5Mio. T/mm2, GF 14nm) vs. Vega VII (331mm2, 13.3 Mio.T/mm2 TSMC 7nm)
Was ziemlich exakt einem Faktor 1.6 entspricht (theoretische logic density reduction =2.0)
Bei TSMC 5nm und dem Faktor 1.8, wären es umgerechnet immer noch 1.44
Gut die haben zwar ein HBM SI und daher schwierig zu vergleichen, allerdings könnte dies Flächenmäßig verglichen mit einem doch sehr schmalen 256 Bit GDDR6 SI doch nicht zuweit voneinander entfernt sein.
Ausgehend von dem Worst Case Szenario 400mm2 pro Chiplet / 1.44 =278mm2 (TSMC 5nm) pro Chiplet.
Allerdings scheint es noch grössere Architektur bedingte Änderungen zu geben, so das die Fläche noch eine grössere Schwankungsbandbreite aufweisen könnte.
Mal angenommen 278x1.2= wären trotzdem nur 333mm2 sogar wenn es 400mm2 wären was ich nicht glaube wären 2 solcher Chiplets wohl nur unwesentlich, wenn überhaupt, teurer zu fertigen als ein z.B. 600mm2 (TSMC 5nm) großer Lovelace (RTX4000) Chip.
Auch leistungstechnisch wird es für NVIDIA unmöglich sein da mitzuhalten.
Es steht momentan ein Faktor von 2x vs. 2.5x verglichen mit Ampere bzw. NAVI21 im Raum.
Wo es bei AMD, unter der Annahme das genügend Speicherbandbreite zur Verfügung steht, plausibel erscheint die Leistung um den Faktor 2.5 zu steigern und vor allem trotz einer Verdreifachung der Shader-Einheiten nicht in einen Flaschenhals bezüglich der Speicherbandbreite zu laufen.
So scheint beim AD102 mit seinen 18.432 Shader den damit einhergehenden 71,4 Prozent mehr Recheneinheiten + zusätzlich mehr Takt als beim GA102 (10.752) und einer vermuteten Leistungssteigerung um den Faktor 2.0 das Gegenteil der Fall zu sein.
Von wo soll dieser den kommen? (Das konnte bis jetzt noch keiner beantworten!)
Den laut einhelliger Meinung in sämtlichen HW Magazinen und Foren soll es kein HBM Speicher für Desktopkarten mehr geben.
Auch ein 512 Bit SI ist des Teufels da zu komplex und zu stromintensiv.
GDDR6X >24Gbps wird es wohl auch nicht geben und von GDDR7(X) müsste man auch bereits etwas gehört haben wenn es diesen dann auch bis zum Erscheinen in ausreichender Stückzahl geben sollte.
24/19.5 (wie bei der 3090) gibt nur +23%
512/384x1.23=1.64 selbst bei 512 Bit SI + 24 Gbps sind es nur +64% Speicherbandbreite.
Hier konnte mir noch keiner eine plausible Antwort liefern, wie das möglich sein soll. (Bessere HW Komprimierung?
Aber in diesem Umfang überhaupt möglich?)
Es schmerzt mich wirklich das zu sagen, aber für NVIDIA sieht es bei der next. Gen. einfach nur zappenduster aus
Ich sehe ihren Top Dog RTX 4090 im besten Fall bei +70-80% relativ zur Vorgängergeneration bzw. im Besten Fall 40% hinter NAVI 31 bzw. 10-20% hinter NAVI 32.
Und als würde dies nicht bereits schon ausreichen, wird dieser gewaltige Performance Vorsprung wohl noch nicht einmal höhere Produktionskosten als bei der RTX4080 /4090 verursachen.
Auch der Verbrauch wird wohl ziemlich ähnlich sein beide wohl >400W bzw. NAVI 32 300W.
Mal schauen, vielleicht kann NVIDIA ja noch bei den Einsteiger bzw. bei den unteren Mittelklasse Karten Punkten. Zu wünschen wäre es ihnen auf jeden Fall, den Konkurrenz ist ja für uns alle gut.
Quelle Anandtech
Anhang anzeigen 1372438