News Radeon RX 8000: Aufbau von eingestelltem Navi 4C geleakt - mit 13 bis 20 Chiplets [Gerücht]

AMD hat hoffentlich schon was im Labor liegen, was deutlich besser ist.
Sonst würde man ja nicht den nächsten Aufbau so einfach Canceln?

Mal sehen was AMD macht, Nvidia ist ja aktuell prima aufgestellt.
 
Ja, so ist es wohl gewesen. Mit der 3090 hat man seinerzeit den Gegner unterschätzt und musste dann (vermutlich) auch ordentlich nachhelfen, die Ti folgte ja recht zügig.

Hmm, ich weiß nicht? Chiplets haben multiple Vorteile und das Thema Skalierung gerade im Serverbereich ist natürlich gegeben. Ob dies aber der Hauptgrund ist? Wage es zu bezweifeln. Ich denke Chiplets sind in allen Bereichen so ein wenig der heilige Gral und nicht unbedingt wegen dem Thema Skalierung, sondern wegen der technischen Möglichkeiten im Bereich der Belichtung. Intel hat es ja als ehemaliger führender in diesem Bereich vorgemascht, wie schnell so ein Vorspung aufgebraucht ist. Man hat 10nm völlig unterschätzt und hat seine Technologieführerschaft eingebüßt und auch die aktuellen und kommenden Prozesse laufen aller Voraussicht nach nicht da, wo man sie gerne hätte. Hier greift dann eben das MCM Design ein und kann Mängel in der Fertigung sehr gut kaschieren.

Aber man sollte auch sehen, dass AMD mit Zen 3 bereits eine Rolle rückwärts gemacht hat, in dem man 8 Kerne in ein CCD packte hat man ja quasi einen Rückschritt in die monolithische Fertigung vollzogen, da man gesehen hat, dass mit 4 Kernen die Nachteile nicht so ohne weiteres zu kompensieren sind.

chiplets sind vorallem, günstig, großer yield.
nachteil ist der interconnect alias fabric link.

ich denke amd hat mehrere probleme, denke das teil zieht zuviel strom bei der leistung die gewollt ist und daraus ergeben sich wieder andere probleme. wohin soll die hitze denn?

celebras is lustiges ai konzept. nen ganzer wafer.
 
Hmm, ich weiß nicht? Chiplets haben multiple Vorteile und das Thema Skalierung gerade im Serverbereich ist natürlich gegeben. Ob dies aber der Hauptgrund ist? Wage es zu bezweifeln.

Selbstverständlich ist die Liste der Vor- und Nachteilliste noch länger, jedoch ist dies der Hauptgrund für AMD im Serverbereich, wieso du dies anzweifelst ist mir ein Rätsel.
Ohne Chiplets würden die Fertigungskosten astronomisch in die Höhe schießen und man könnte die Anzahl an Kerne gar nicht anbieten.

Ich denke Chiplets sind in allen Bereichen so ein wenig der heilige Gral und nicht unbedingt wegen dem Thema Skalierung, sondern wegen der technischen Möglichkeiten im Bereich der Belichtung.

Hab ich auch nirgends behauptet, dass sie überall der heilige Gral sind oder?
Z.B. im Notebookbereich, wo die Effizienz das A und O ist, ist ein Monolith immer die bessere Wahl. Bei Gaminggrafikkarten im High End Segment, fällt es auch nicht mehr ganz so stark ins Gewicht, dass die monolitsche Lösung effizienter wäre. Wobei die Skalierung hier das Problem ist und man den Vorteil eher bei den CDNA Karten sieht.

Intel hat es ja als ehemaliger führender in diesem Bereich vorgemascht, wie schnell so ein Vorspung aufgebraucht ist. Man hat 10nm völlig unterschätzt und hat seine Technologieführerschaft eingebüßt und auch die aktuellen und kommenden Prozesse laufen aller Voraussicht nach nicht da, wo man sie gerne hätte. Hier greift dann eben das MCM Design ein und kann Mängel in der Fertigung sehr gut kaschieren.

Das ist doch genau das Problem, dass man wenn man viele CPU Kerne oder große GPUs fertigen möchte, man sehr viel Waferfläche benötigt und wenn der Konkurrent mit Chiplets agiert, dann wird man kostentechnisch ausmanövriert.

Aber man sollte auch sehen, dass AMD mit Zen 3 bereits eine Rolle rückwärts gemacht hat, in dem man 8 Kerne in ein CCD packte hat man ja quasi einen Rückschritt in die monolithische Fertigung vollzogen, da man gesehen hat, dass mit 4 Kernen die Nachteile nicht so ohne weiteres zu kompensieren sind.

Ich sehe jetzt nicht wo sie da einen Schritt zum Monolithen gemacht haben sollen? Sind Funktionen aus dem IO Teil zurückgewandert? Das wäre mir neu.
Und das man die Chiplets bei einer Fertigung die kleinere Strukturbreiten ermöglicht in ihrer Größe auch wieder wachsen ist doch nur logisch? Sonst würden ja die Kerne oder die Ausführungseinheiten bei den GPUs stagnieren.

So recht verstehe ich allerdings auch deinen Punkt nicht, auf was du denn heraus möchtest?
 
Ich bin echt gespannt wie es mit RX 8000 weitergeht, wenn sich das bewahrheitet.

Wie war das denn bei Polaris und RDNA1, als es auch keine Highend-Variante gab - konnten die dennoch ihre Vorgänger übertrumpfen?
Kommt darauf an wie schnell die RX8000 Karten werden.

Bei Polaris jedenfalls lag die RX480-8GiB auf dem Niveau der R9-390 non-X
und der Unterschied beim Energiebedarf war dabei ~150 Watt zu ~275 Watt.

Bei RDNA1 lag die 5700 non-XT 8GiB knapp vor der Vega 64
und der Unterschied beim Energiebedarf war dabei ~180 Watt zu ~295 Watt.

Aber es sei dazugesagt, dass die Polaris und RDNA Karten von der "Compute-Last"
befreit wurden und v.a. auf "Gaming" optimiert sind.

Compute-Beschleuniger gibt es bei AMD seit 2019 / RDNA unter dem Kürzel CDNA.

Einen großen Sprung würde ich daher zwischen RX7000 und RX8000 nicht erwarten,
sondern eher eine gute Mittel/Oberklasse mit optimiertem Raytracing
zu (hoffentlich) vernünftigen Preisen.
 
Selbstverständlich ist das der Hauptgrund, denn auch wenn der Yield gut ist, benötigst du durch Chiplets weniger der teuren Chipfläche ;-)
Der Hauptgrund für Chiplets ist schlicht und ergreifend der, dass man Leistung günstig hochskalieren kann --> siehe Epyc.
Und bei den GPUs ist es nicht anders, indem man Funktionen die nicht zwingend im besten Prozess gefertigt werden müssen auf günstigere Prozesse auslagert.

Letzteres stimmt, ersteres nicht: Chiplets verbrauchen pro Funktionseinheit sogar mehr Waferfläche. Man hat viel mehr Keep-Out-Areas entlang der Chipränder, die frei bleiben müssen, und man braucht zusätzliche Interface-Technik auf den Chips, um die Verbindung über das Substrat zu bewerkstelligen. Diese Nachteile bekommst du nur durch die etwas bessere Flächennutzung am Wafer-Rand nicht ausgeglichen. Chiplets lohnen sich erst, wenn von den auf diesem Wege ausbelichteten Schaltungen ein größer Anteil gegen Bares verkauft werden kann. Entweder, weil man nicht mehr so vieles absichtlich deaktivieren muss, um seine Produktpalette fein zu staffeln, oder wenn wegen hoher Defektraten zu viele große Monolithen ganz in den Müll wandern müssten.

Ersteres Aspekt gilt allerdings nur für geringe Stückzahlen/für Hersteller mit niedrigen Marktanteilen. Wenn man erstmal groß im Geschäft ist, hat man zusätzlich zu "deaktivieren" und "zusammenstückeln" auch die Option, auf ohnehin benötigten, zusätzlichen Produktionslinien ein Design in angepasster Größe fertigen zu lassen. Dann bleibt als einziges Argument für symmetrische Chiplets* der Yield übrig. Intel z.B. fertigt für Sapphire Rapids XXC sogar zwei verschiedene Tiles und nutzt keinen davon einem weiteren Produkt, zieht also gar keinen Skalierungs-, sondern nur einen Yield-Vorteil aus der geteilten Bauweise. (Und dabei sind von SPR nicht einmal hohe Stückzahlen zu erwarten.^^)

*: Bei asymmetrischen Kombinationen, z.B. ein CCD und IOD, profitiert man auch ganz allgemein von der Möglichkeit, unterschiedliche Fertigungen zu verwenden. Aber hier ging es ja um eine Aufteilung der Shader-Einheiten auf mehrere Chips gleicher Qualität.
 
Das der Yield der Hauptgrund für Chiplets ist, ... macht bei TSMC derzeit kaum Sinn.(der Yield ist gut)
AMD sollte wirklich bis zur oberen Mittelklasse auf 1-Chipdesign setzen.(spart 10% Latenz und W)
Ergänzend zum zuvor gesagten noch, dass für eine Firma wie AMD, insbesondere im GPU-Marktsegment die Frage des Yields (sowie der Kosten) eine gänzlich andere ist als für eine Firma wie nVidia. Letztere kann es sich hier eher leisten mit riesigen Chipdesigns aufzuwarten als AMD, was schlicht an AMDs beschränkten Absatzmöglichkeiten aufgrund deren kleinen Marktanteilen liegt.
nVidia dagegen hat hier ganz andere Amortisierungsmöglichkeiten. *) Nur mal als Vergleich, der große GA102 mit seinen 628 mm2 wurde von nVidia in mindestens zehn(!) unterschiedlichen, regulären Produkten vermarktet und davon wurden nur vier (von der RTX 3080 bis zur sehr spät eingeführten RTX 3090 Ti) im Consumer-Segment verkauft.

Bei AMD dagegen läuft es insgesamt relativ schlecht bzgl. der GPU-Absatzzahlen in Form von AIBs und man hat hier aktuell einen absoluten Tiefstand bzgl. der Martkanteile erreicht. Gegen Ende des letzten Jahrzehts lag man noch bei um die 30 % Marktanteil bzgl. abgesetzter AIBs. Die Quartale 4Q22 und 1Q23 hat man nur noch mit 12 % Anteil abschließen können und das, obwohl man mit RDNA2 und RDNA3 recht passable Hardware anbietet. (Nicht umsonst rabattiert AMD ihre Navi31-GPUs immer weiter. Die Zahlen sehen gar noch schlechter aus, wenn man berücksichtigt, dass man Intel hier bereits mit Alchemist einen Marktanteil von mittlerweile 4 % für 1Q23 zuschreibt, wohlgemerkt AIBs, nicht etwa GPUs allgemein/insgesamt. Quelle zu Marktanteilen: JPR)


*) ... ganz andere Amortisierungsmöglichkeiten und kann es sich daher auch vorerst noch erlauben auf fehleranfällige zusätzliche Komplexität im GPU-Design zu verzichten und fertigt vorerst weiterhin monolithisch.
AMD konnte dies aus wirtschaftlichen Gründen offensichtlich nicht mehr und daher begann man schon mit RDNA3 sich mit einem ersten, einfachen MCM-Design auseinanderzusetzen. Und auch das lief bereits nicht ganz rund.
Sollte das Gerücht bzgl. dem vorläufigen HighEnd-Ausstieg zutreffen, hat man hier bei AMD nun möglicherweise alles auf eine Karte gesetzt ... und verloren, also zieht man die Reißleine und setzt nun alles daran mit einem derartigen Design mit RDNA5 in den Markt zu kommen ... wohlgemerkt, wenn dieser "Ausstieg" sich so tatsächlich ereignen wird, weil am Ende ist es bisher immer noch nur ein Gerücht. ;-)

Das "verloren" kann hier vieles Bedeuten ... bspw. Probleme beim Interconnect, ggf. auch nur zwischen zwei speziellen Chiplets oder ein konkretes Chiplet weist einen handfesten Designfehler auf und man müsste wieder zurück in die Designphase, was zu viele Kosten und auch beträchtliche zeitliche Verzögerungen nach sich ziehen würde oder man erreichte grundsätztliche Designziele bei einer kritischen Komponente nicht, die in vorausgegangenen Simulationen aber als notwendig spezifiziert wurden, um das Gesamtdesign in die benötigte Leistungsregion zu bekommen (um es anschließend gewinnbringend vermarkten zu können).
 
Zuletzt bearbeitet:
Die kombinierte Chipfläche einer 7900XTX sind 531mm² Laut PCGH ist diese Karte Kopf an Kopf mit der 4080 beim rastern (4% Unterschied) und AMD ist 20% hinterher bei Raytracing. Allerdings hat die 4080 gerade mal 378mm³ Chipoberfläche. Nvidia braucht also 29% weniger Chipoberfläche um mit AMD gleich schnell zu rastern und bei Raytracing hinten dran zu sein. Die 7900XTX braucht dabei sogar 30W mehr als die Nvidia.

Der große Wurf ist das Chiplet Design bei AMD also nicht in Sachen Leistung gemessen an der Chipgröße. Nvidia kommt damit nicht unter Zugzwang. Im Gegenteil, die 4080 ist von der Chipgröße so groß wie eine 3070, die RTX20 Chips waren alle größer, auch die 2060. Selbst wenn die 7900XTX preislich einen Druck aufbaut, sollte Nvidie hier genug Reserven haben.

Überhaut, dort wo eine 3070Ti mit 392mm² noch auf 17,4 Milliarden Transistoren kommt, hat eine 4080 bei 378mm² schon 45,9 Milliarden Transistoren. Das ist ein Faktor von 2,6, aber auch hier sieht man, dass laut PCGH in Sachen Leistung "nur" Raster-Faktor 1,5 und (2,1 bei RT) ankommen. Nvidia geht also eher auf RT Leistung und scheint damit kein grundsätzliches Problem zu haben. Wie gesagt, AMD braucht mehr Chipfläche, auch wenn die vielleicht etwas billiger zu produzieren war.

Was wir bei den Ryzen Chiplets nie vergessen dürfen. Ja, die waren schneller, aber nein AMD hat die irgendwann nicht mehr drastisch billger gemacht als Intel, die haben die da auf einem Niveau eingependelt. Wenn man bei Intel den massiven Platz rausrechnet den der GPU Teil eines Cores gebraucht hat, dann war das AMD Design hier auch nicht auf "klein" getrimmt. Das könnte uns auch hier bei den GPUs blühen. "Große Chips" aber die kommen eher über die Preis/Leistung, als über die Leistung pro mm².

Aus Nvidia Sicht kostet ein Wafer bei TSMC $16988 und es passen 148 Chips einer 4080 drauf. Das sind $114 pro 4080 Die. Lass 30% davon kaputt sein, dann sind es immer noch erst $170 pro Chip. Bei den Preisen zu denen diese Karten aktuell verkauft werden, muss Chiplet Design ganz schön was auffahren, wenn es das abzuhängen gilt. Die Gerüchte, dass sich AMD vom High-End verabschieden will, sind vielleicht schon ein Hinweis, dass bei aller Preiseffizienz, der ganz große Wurf eines GPU Chiplets im Vergleich zum monolithischen Design einfach noch nicht da ist. Vielleicht braucht das einfach noch ein paar Jahre.
 
Und schon geht das Hoffen und Beten um einen leistungsstarken innovativen Chip bei Radeon wieder los.
Ich weiß schon wie wahrscheinlich nach unzähligen AMD Gerüchte-Threads ausgeht, Nvidia schüttelt aus dem nichts ohne viel Tamtam und Gerüchte und Gehype eine GPU auf dem Markt die AMD wieder alt aussehen lässt...
 
Die kombinierte Chipfläche einer 7900XTX sind 531mm² Laut PCGH ist diese Karte Kopf an Kopf mit der 4080 beim rastern (4% Unterschied) und AMD ist 20% hinterher bei Raytracing. Allerdings hat die 4080 gerade mal 378mm³ Chipoberfläche.
Dennoch wird die 7900XTX in der Produktion günstiger sein, zum einen kommt "nur" 5nm und nicht ein spezialisierter Prozess zum Einsatz, zum anderen ist der GCD nur 350mm² groß, während die Speicherchips einfacher (daher weniger fehleranfällig) sind und sehr klein.

Zum anderen stimmen deine Werte nicht so ganz, die XTX ist minmal schneller im PCGH GPU, da sind aber bereits RT Benches mit drin, der Rastervorsprung werden dann schon rund 10% sein. RT ist zweifelsfrei die 4080 im Vorteil, allerdings sind die RT Einheiten nur ein ganz kleiner Teil des Chips.

Was wir bei den Ryzen Chiplets nie vergessen dürfen. Ja, die waren schneller, aber nein AMD hat die irgendwann nicht mehr drastisch billger gemacht als Intel
Warum? Weil AMD die Oberhand hat (te) und warum soll ich ein viel günstiger zu produzierendes Produkt nicht zum "Marktpreis" anbieten? Richtig, gar nicht! Wenn ich zwei Produkte habe, die das gleiche können gibt es nur wenig Gründe das unter dem Preis des Mitbewerbers anzubieten. Vor allem wird dabei ja gerne vergessen, dass AMD immer billiger war als Intel, gerade im HPC / Serversegment bietet AMD heute noch manchmal die doppelte Leistung zum gleichen Preis.

dass bei aller Preiseffizienz, der ganz große Wurf eines GPU Chiplets im Vergleich zum monolithischen Design einfach noch nicht da ist
Zweifelsohne, die Ankündigung wird AMD "hart" treffen, wenn auch bei Weitem nicht so hart wie viele meinen. Denn wie oft verkauft sich so eine 4090 / 4080?
 
Dieser Aufbau ist viel zu komplex für RDNA4... Ich hätte jetzt nie und nimmer mehr erwartet, als dass AMD bei RDNA4 vielleicht neu zusätzlich 2 GCDs zusammenklebt. Aufgrund ihrer Äusserungen im Vorfeld zum enormen Aufwand beim Datentransfer allein bei zwei GCD-Chiplets und ihren Praxiserfahrungen bei CDNA.

Aber 3 GCDs, mit Cash-Chiplets und aufgestakten Compute-Chiplets? Uiuiui.... neee... Wenn dann klingt mir das mehr nach HPC.

[...]
AMD konnte die Leistung nie ausspielen. Die Fury X war nur so schnell, wie die GTX 980TI und hatte ein Drittel weniger VRAM. Die Vega 64 konnte gegen die angedachte GTX 1080Ti nichtmal anstinken und mußte den Gegner ein Stockwerk tiefer suchen. Beide Karten haben, im Vergleich zu den Nvidiakarten auch ordentlich Strom benötigt, ohne dafür eine Mehrleistung auf die Beine zu bringen. Den Kosten stand kein nutzen gegenüber.
[...]

Nein, die Fury X war nur etwa so schnell, resp. leicht schneller wie die 980 ohne das Ti und hatte gleich viel VRAM wie die 980. Das war entsprechend der für damalige Verhältnis enormen Menge von 4096 Shadern enttäuschend. Fury X hatte letztlich ein Auslastungsproblem in niedrigeren Auflösungen. War aber immerhin ein Brett beim Ethereum-Mining.
Entsprechend wurde sie als direkte Konkurrenz zur 980 vermarktet, so wie heute die 7900XTX als Konkurrenz zur 4080 positioniert wird. Die 7900XTX ist aber relativ gesehen zur Konkurrenz ein viel, viel besseres Produkt geworden als es seinerzeit die Fury X war.

Dennoch, ich hatte viel Spass mit meiner Fury X, die für damaligen Verhältnisse lange genug Power hatte, dass ich sämtliche Spiele mit VSR zockte :)

Aber die 4GB VRAM machten sich nach 3 Jahren so bemerkbar, dass man halt nicht die maximale Textureinstellung im Tomb Raider Reboot für 8GB-Karten sinnvoll nutzen konnte, oder in Kingdom Come: Deliverance besser auf das High-Res-DLC verzichtete. Das gleiche Problem werden die GTX980-Besitzer auch gehabt haben, konnten ihre GPU aber bestenfalls unter dem Strich vorher schon fast ein Jahr länger nutzen, da diese früher erschien.
 
Zuletzt bearbeitet:
HBM war Mist.

AMD konnte die Leistung nie ausspielen. Die Fury X war nur so schnell, wie die GTX 980TI und hatte ein Drittel weniger VRAM. Die Vega 64 konnte gegen die angedachte GTX 1080Ti nichtmal anstinken
Vega war nicht so schlecht wie Du schreibst/meinst !
Vega 56 vs. RTX 1070, 64 vs. 1080 und Radeon VII vs. 1080Ti.
Jene waren meist schneller bzw. gleichauf und günstiger (FPS/€).
Nur zu spät und zu durstig waren sie (wie Ampere).
 

Anhänge

  • GPU Bench Vega.jpg
    GPU Bench Vega.jpg
    392,4 KB · Aufrufe: 24
Also ich verstehe die Chiplets jetzt so wie man es früher mit CF/SLI gemacht hat man verbindet mehrere Rechenkerne mit einer Brücke. Da frage ich mich ob es da dann nicht wieder zu den sogenannten Mikrorucklern kommt was typisch für solche CF/SLI lösungen war. Irgendwie muss die Last ja auf die einzelnen Kerne aufgeteilt werden. Oder sehe ich das hier falsch`?
 
Also ich verstehe die Chiplets jetzt so wie man es früher mit CF/SLI gemacht hat man verbindet mehrere Rechenkerne mit einer Brücke. Da frage ich mich ob es da dann nicht wieder zu den sogenannten Mikrorucklern kommt was typisch für solche CF/SLI lösungen war. Irgendwie muss die Last ja auf die einzelnen Kerne aufgeteilt werden. Oder sehe ich das hier falsch`?
Kommt halt auf die Technik an.

Aber generell gilt das erstmal nicht für das Chipletdesign, bzw. nicht zwangsläufig. Bei CF / Sli musste ja im Prinzip eine Aufteilung der Bilder stattfinden, sprich GPU1 hat Bild 1; GPU2 Bild 2 usw. berechnet, wenn aber nun Bild 2 viel mehr Infos innehatte als Bild 1, dann kam es eben zu diesen Mikrorucklern (schwer vereinfacht). Nvidia und AMD setzten seinerzeit auf AFR und das hat damals recht schnell klar gemacht, dass diese Technik keine Zukunft haben wird.
 
Also ich verstehe die Chiplets jetzt so wie man es früher mit CF/SLI gemacht hat man verbindet mehrere Rechenkerne mit einer Brücke. Da frage ich mich ob es da dann nicht wieder zu den sogenannten Mikrorucklern kommt was typisch für solche CF/SLI lösungen war. Irgendwie muss die Last ja auf die einzelnen Kerne aufgeteilt werden. Oder sehe ich das hier falsch`?
Bei CF / SLI wurden zwei einzelne GPUs per Interconnect + Brückenchip miteinander verbunden,
sind aber als zwei einzelne GPUs angesprochen worden - mit den entsprechenden Problemen bei der Synchronisation.

Bei aktuellen CPUs und Compute-Beschleunigern sind die Chiplets ebenfalls mit einem
(sehr kurzen und schnellem) Interconnect verbunden - werden aber als "ein Prozessor" angesprochen.

Auch hier gibt es Latenzen wegen der Verbindungen, aber die sind kein Vergleich mit den Problemen
die es früher mit CF und SLI gab.

Am "schnellsten" wäre natürlich idR. weiterhin ein einzelner Chip,
aber ab einer gewissen Größe wird es sehr teuer in der Fertigung, da der Platz auf einem Wafer begrenzt ist
und auch nicht alle Chips darauf fehlerlos sind.

Daher werden die "Klebe-Prozessoren" (© AMD, Intel) aus kleinen, einzelnen Chips,
in Zukunft in vielen Bereichen die Regel sein.
 
Bei CF / SLI wurden zwei einzelne GPUs per Interconnect + Brückenchip miteinander verbunden,
sind aber als zwei einzelne GPUs angesprochen worden - mit den entsprechenden Problemen bei der Synchronisation.
Waren das denn wirklich die "größten" Probleme? Lag dies nicht eher an der Methode AFR (alternate Frame Rendering) und der Varianz der einzelnen Bilder, glaube die Latenzprobleme waren seinerzeit gar nicht so im Vordergrund, da ging es letztlich um Bandbreite und Verteilung der RechenleistunG (welche bedingt durch AFR (SFR gab es ja auch, wurde aber nahezu gar nicht genutzt und erzielte eben weit schlechtere Balkendiagramme). Kann mir aber gar nicht vorstellen, dass AFR eine Lösung im Bereich der MCMs sein sollte.

Mein laienhaftes Verständnis hat seit den Ankündigungen um den MCM Ansatz immer wieder im Kopf, dass man hier nicht einfach nur zwei GCDs (oder mehr) nimmt, sondern das man die ganzen Spezialeinheiten "trennt".
 
Zweifelsohne, die Ankündigung wird AMD "hart" treffen, wenn auch bei Weitem nicht so hart wie viele meinen. Denn wie oft verkauft sich so eine 4080/4090?
Letztere vielleicht gar nicht mal so schlecht. Ja, dat Dingens kostet ein kleines Vermögen und mir ist Nvidia`s Gebaren/Verhalten seit langem auch ein Dorn im Auge. Aber Grakas bauen können die und die 4090 ist die schnellste Pixelschubse am Markt, bietet mit 24GB VRAM ein beruhigendes Polster, die Karte kannst du mit ~300W ohne nennenswerte Verluste betreiben und mit ihr ist endlich wirklicher Spaß in 4K (samt Raytracing) möglich.

Daher sind die knapp 1600€ für manche (:D) im Endeffekt gut angelegtes Geld...

Was AMD angeht: egal welches Chipdesign sie nun auch verwenden, ich bin der letzte der etwas gegen eine "neue" HD7970 hätte;)

Gruß
 
Dennoch wird die 7900XTX in der Produktion günstiger sein, zum einen kommt "nur" 5nm und nicht ein spezialisierter Prozess zum Einsatz, zum anderen ist der GCD nur 350mm² groß, während die Speicherchips einfacher (daher weniger fehleranfällig) sind und sehr klein.

Du beanspruchst ja gerne, alles über die niedrigen Produktionskosten von AMD zu wissen. Da kannst du uns doch bestimmt mal vorrechnen, wie man mit 40 Prozent mehr Flächenbedarf (!) dennoch auf einen niedrigeren Gesamtpreis kommt? In einem Prozess mit guten Yield-Raten?

Waren das denn wirklich die "größten" Probleme? Lag dies nicht eher an der Methode AFR (alternate Frame Rendering) und der Varianz der einzelnen Bilder, glaube die Latenzprobleme waren seinerzeit gar nicht so im Vordergrund, da ging es letztlich um Bandbreite und Verteilung der RechenleistunG (welche bedingt durch AFR (SFR gab es ja auch, wurde aber nahezu gar nicht genutzt und erzielte eben weit schlechtere Balkendiagramme). Kann mir aber gar nicht vorstellen, dass AFR eine Lösung im Bereich der MCMs sein sollte.

Mein laienhaftes Verständnis hat seit den Ankündigungen um den MCM Ansatz immer wieder im Kopf, dass man hier nicht einfach nur zwei GCDs (oder mehr) nimmt, sondern das man die ganzen Spezialeinheiten "trennt".

AFR war keine Ursache, sondern eine Reaktion auf das Bandbreitenproblem. Die Verbindung zwischen den GPUs war bei Crossfire respektive bei Nvidias SLI zu langsam, als dass sie gemeinsam an vielen, Frame-weiten-Berechnungen damaliger Spiele hätten arbeiten können. Im SFR-Modus führte das dazu, dass im ersten Renderabschnitt teilweise jede GPU für sich die komplette Geometrie und die komplette Beleuchtung redundant selbst berechnet hat und nach hinten raus sämtliche Post-Effekte von nur einer GPU bearbeitet wurden, während die andere Däumchen drehte. Oder, wenn man Bild-übergreifende Effekte wie TAA zum Einsatz kamen, auch dieser Teil des Renderings zweimal durchgeführt werden musste. Nur am auf einzelne Pixel beschränkten Teil der Pipeline wurde effektiv parallel gearbeitet und nach dieser geringen Beschleunigung mussten dann auch noch die Ergebnisse ausgetauscht werden. (Im Prinzip der Technik-Stand von 3dfx' SLI. Nur dass deren Grafikchips in der vor-GPU-Ära halt sowieso nur Pixel-bezogenes berechnet und alles andere der CPU überlassen haben, sodass keine Redundanzen resultierten.)

AFR löst all diese Probleme, in dem die GPUs parallel an unterschiedlichen Aufgabenstellungen arbeiten können und nur ganz am Ende das Gesamtergebnis für Ausgabe und ggf. TAA austauschen müssen. Der Preis dafür waren mehr Lag (wobei wir den jetzt mit DLSS3 auch wieder haben) und Mikroruckler. Neue Multi-Chip-GPUs werden vor dem gleichen Dilemma stehen, können innerhalb eines Packages aber eine viel schnellere Verbindung realisieren. Ob die bei modernen Effekten dennoch zum Flaschenhals wird, bleibt abzuwarten. Chiplets wurden jedenfalls nicht adaptiert und zuletzt brachte selbst die Bündelung verwandter Berechnungen innerhalb monolithischer Chips deutliche Performance-Vorteile, ebenso wie Abkoppelung vom "lahmen" VRAM durch größere Caches. Jetzt jede einzelne von beispielsweise 4×4 Compute-Tiles mit jeder anderen so schnell zu verbinden, dass sie jedes beliebige Ergebnis untereinander deutlich schneller austauschen können, als bisherige monolithisches GPUs Daten aus/in den VRAM transferieren, das ist auch auf einem Silizium-Interposern kein Selbstläufer.

Intel zum Beispiel setzt bei Ponte Vecchio voll auf getrenntes Silizium für nahezu alles und scheint damit, innerhalb des Fertigungsnodes (also verglichen mit etwas älteren Nvidia-/AMD-Angeboten), ein technisch gelungenes Gesamtprodukt für einen Markt abgeliefert zu haben, der schon zu SLI-Zeiten kein Problem mit Multi-GPU-Skalierung hatte. Von den Desktop-Arcs, die auf der gleichen Architektur basieren, oder von Intel-IGPs, die über ein relativ betrachtet extremes Leistungsspektrum skalieren sollen, sind dagegen nicht einmal Gerüchte über Multi-Chip-Designs bekannt. Ab Meteor Lake wird es zwar ein extra IGP-Tile geben, dass beherbergt aber immer die gesamte IGP. Der schon x-fach vorgeschlagene Ansatz, eine Basis-Einheit für Office-Rechner fest in den I/O-Tile zu integrieren und dann für leidliche Gaming-Fähigkeiten in Ultrabooks 1/2/3 extra Tiles mit zusätzlichen Shadern hinzuzufügen, wird nicht umgesetzt. Obwohl die nötige Technik seit Ponte Vecchio in der legendären Schublade liegt und obwohl man mit 10/20/30 davon auch gleich noch eine dedizierte Arc aus der gleichen Produktion ableiten könnte. Stattdessen lässt Intel monolithische IGP-Tiles in verschiedenen Größen für verschiedene Zielmärkte fertigen.

Das kann natürlich auch daran liegen, dass Intel immer mal wieder richtig merkwürdige Entscheidungen trifft, aber ich tippe eher darauf, dass die Performance-Nachteile einer Multi-Chip-GPU viel größer waren als die Fertigungsvorteile. Wenn man pro Wafer-Fläche netto zum Beispiel 5 Prozent mehr Silizium als aktive Recheneinheit verkaufen kann, aber 30 Prozent mehr braucht, um die gleiche effektive Renderleistung zu liefern oder gar 60 Prozent mehr, um das in untertaktetem Zustand bei gleichem Gesamtstromverbrauch zu schaffen, dann lohnen sich Tiles einfach nicht.
 
Letzteres stimmt, ersteres nicht: Chiplets verbrauchen pro Funktionseinheit sogar mehr Waferfläche. Man hat viel mehr Keep-Out-Areas entlang der Chipränder, die frei bleiben müssen, und man braucht zusätzliche Interface-Technik auf den Chips, um die Verbindung über das Substrat zu bewerkstelligen. Diese Nachteile bekommst du nur durch die etwas bessere Flächennutzung am Wafer-Rand nicht ausgeglichen. Chiplets lohnen sich erst, wenn von den auf diesem Wege ausbelichteten Schaltungen ein größer Anteil gegen Bares verkauft werden kann. Entweder, weil man nicht mehr so vieles absichtlich deaktivieren muss, um seine Produktpalette fein zu staffeln, oder wenn wegen hoher Defektraten zu viele große Monolithen ganz in den Müll wandern müssten.

Selbstverständlich stimmt ersteres, da man aus einem Wafer deutlich mehr Chiplets bekommt, als würde man riese Monolithen fertigen. Einfache Mathematik, die auch schon oft von anderen Usern vorgerechnet wurde.
Kannst dir ja ausrechnen wie viel 96 Core Monolithen man aus einem Wafer bekommen würde, ein entsprechender Yield vorausgesetzt.
Und da ich mehr Einheiten aus dem Wafer bekomme, die ich zudem flexibel kombinieren kann hab ich mir mit Chiplets Waferfläche gespart bzw. fertige günstiger.


Ersteres Aspekt gilt allerdings nur für geringe Stückzahlen/für Hersteller mit niedrigen Marktanteilen. Wenn man erstmal groß im Geschäft ist, hat man zusätzlich zu "deaktivieren" und "zusammenstückeln" auch die Option, auf ohnehin benötigten, zusätzlichen Produktionslinien ein Design in angepasster Größe fertigen zu lassen. Dann bleibt als einziges Argument für symmetrische Chiplets* der Yield übrig. Intel z.B. fertigt für Sapphire Rapids XXC sogar zwei verschiedene Tiles und nutzt keinen davon einem weiteren Produkt, zieht also gar keinen Skalierungs-, sondern nur einen Yield-Vorteil aus der geteilten Bauweise. (Und dabei sind von SPR nicht einmal hohe Stückzahlen zu erwarten.^^)

Ich hab ja auch nicht von intel, sondern von AMD gesprochen ist ja auch keine intel news hier ;-)
Und dass der Ansatz von intel ein völlig anderer ist als der von AMD, darüber brauchen wir denke ich nicht diskutieren.

*: Bei asymmetrischen Kombinationen, z.B. ein CCD und IOD, profitiert man auch ganz allgemein von der Möglichkeit, unterschiedliche Fertigungen zu verwenden. Aber hier ging es ja um eine Aufteilung der Shader-Einheiten auf mehrere Chips gleicher Qualität.

Das wäre die Frage, ob sie das schon können? Ich kann es mir ehrlich gesagt schwer vorstellen, dass sowas schon bei RDNA 4 kommt, ich gehe eher von einem optimierten RDNA 3 Design aus. Aber das sehen wir dann ja, was sie nächstes Jahr liefern werden. Vielleicht werden wir alle überrascht, weil die ganzen Gerüchte sind mir noch zu wage.
 
Du beanspruchst ja gerne, alles über die niedrigen Produktionskosten von AMD zu wissen. Da kannst du uns doch bestimmt mal vorrechnen, wie man mit 40 Prozent mehr Flächenbedarf (!) dennoch auf einen niedrigeren Gesamtpreis kommt? In einem Prozess mit guten Yield-Raten?
Nönö, ich beanspruche hier mal gar nix! :devil:

Ich versuche aber mal die "Leaks und Gerüchte" die bei der Aussage in meinem Kopf rumschwirrten zusammen zu bringen.

1.) Nvidia produziert in einem spezialisierten 5nm Prozess, der wohl etwas teurer ist. Hier habe ich (ohne dies aktuell belegen zu können, Google hilft mir nicht weiter) irgendwas im Kopf bis zu 15% teurer.

2.) Was sind gute Yield Raten? Hier gibt es ja außer Gerüchten nahezu keine aktuellen Infos, daher bediene ich mich (in meinem Kopf) immer an alten Werten und meine da in Erinnerung zu liegen, dass Yields über 70% schon recht ordentlich sind.

3.) AMD produziert ja nur den GCD in 5nm, die Speicherchips laufen ja in einem aktualisierten 7nm Prozess vom Band, dürften daher (analog 1.)) auch ca. 15% teurer sein als 7nm Standard, damit aber wohl immer noch deutlich günstiger als der spezialisierte 5nm Prozess

4.) Packing auf dem Wafer, wobei das zugegebenermaßen vor allem auf die Speicherchips zutrifft, die einen Wafer ja schon sehr ordentlich ausfüllen können. So würden die knapp 300mm² des GCD einen 300mm Wafer mit 198 Stück bestücken, die GCDs passen 1698 Stück / 6 = 283 auf einen Wafer. Bedeutet in meinen Augen, dass man 2,43 Wafer benötigt um 283 GPUs zu realisieren. (immer quadratisch gerechnet, hab leider keine Angaben gefunden, für genauere Ausmaße und natürlich DPW Calculator sonst Standard gelassen).

(edit: mal interessiert wie sich die "Ausbeute" bei kleineren Chips so verhält. Ein 300mm Wafer sollte meinen Berechnungen nach 70.685 mm² Flächeninhalt haben, die GCDs nutzen davon 61.128mm² (86,47%), die GCDs (mit 307mm²) nutzen 60.786 mm² (85,99%), NV nutzt "nur" 59.062 mm² (83,55%). Schon recht erstaunlich, wie sich die Verhältnisse "verschieben", wobei ich gedacht hätte, dass die kleinen prozentual höher liegen sollten (werden sie auch, da ich nicht mehr alle Kommas im Kopf hatte und platt mit 36mm² gerechnet hab)
Aber soviel ist es dann eben doch nicht, 2% mehr oder weniger.

Nvidia bekommt 156 Chips auf einen Wafer, benötigt also 1,81 Wafer um die gleiche Anzahl an Chips zu produzieren. (Der Vorsprung ist schon beachtlich geschmolzen, nur noch 34,25%).

5.) Zu guter Letzt der Dreisatz,
Waferpreis 100% = 100 EUR
1 Wafer in 6nm (85%) = 85 EUR
1,43 Wafer in 5 nm (100%) = 143 EUR
In Summe = 228 EUR

zu 1,81 Wafer in 4nm (115%) = 208,15 EUR


Na gut, geb mich geschlagen. Kaum zu schaffen! Auch wenn der Abstand schon deutlich schmilzt, in meinem Kopf (ich hätte ja mal nachrechnen sollen) hat das Ergebnis etwas anders ausgesehen, denke auch, dass der hier berechnete Abstand gar nicht so abwegig ist (evtl. sogar geringer, da der Yield auf die MCDs quasi keinen Einfluss haben dürfte (also marginal), während er beim NV Chip etwas über dem AMD GCD liegt), aber es wird wohl doch so sein, dass AMD teurer produziert als Nvidia.
 
Zuletzt bearbeitet:
:-)
Deine Grundargumente sind ja auch alle nicht verkehrt, aber eben selbst in der Summe nicht so stark.

Und 70 Prozent Yield sind nicht "gut". Sondern meiner Meinung nach eher mies und nahe der Untergrenze, ab der man sich bei Chips mit hoher Marge eine Produktion überlegen kann. AMD soll so einen Wert meiner Erinnerung nach ganz am Anfang der Zen-2-Produktion, mehrere Monate vor Launch gehabt haben. Damals waren sie der erste Nutzer dieser Variation von TSMC N7-Fertigung (mobile Apples waren die einzigen vorangehenden Chips); möglicherweise lief das sogar noch als risk production. Auf alle Fälle nicht mature.

Konkrete Zahlen für letzteres kann ich, als eher im Bereich Plattformen aktiver Redakteur, genauso wenig bieten, wie jeder andere auch. Schätzungen für den immer noch nur eingeschränkt brauchbaren N3 liegen aktuell bei beispielsweise 55 Prozent, das konnte TSMC gar nicht mehr Wafer-weise verkaufen, sondern nur auf Basis funktionierender Chips abrechnen. Für den Beginn der eigentlichen Serienfertigung wurden 80 Prozent versprochen und nach der Serienfertigung ist wenigstens noch einmal eine Halbierung der Fehlerdichte üblich. Also kann man ab 90 Prozent von einem normalem Yield sprechen. (Wobei man natürlich auch die Chipgröße berücksichtigen muss. Seitens der Foundry gibt es nur eine Fehlerdichte, deren Auswirkungen auf den Yield sind auch eine Frage des zu fertigenden Chips, s.u.)

Die letzte nicht geschätzte Zahl direkt vom Hersteller gab es dieses Frühjahr bei einer Intel-Präsentation, allerdings ging es da ums Packaging. Co-EMIB & Co können einen Chip ja auch noch nach der Ausbelichtung schrotten, aber für diese Schritte wurden "high 99.9" versprochen. Eine Angabe, die nicht Teil der auch als IDF-2.0-Werbung gedachten Präsentation war, sondern erst auf Nachfrage im Q&A fiel. Zumindest an dieser Stelle ist so ein Yield also kein erwähnenswertes supergeil-Uber-Feature, sondern einfach Standard für einen an Kunden vermarkteten Prozess.


Selbstverständlich stimmt ersteres, da man aus einem Wafer deutlich mehr Chiplets bekommt, als würde man riese Monolithen fertigen. Einfache Mathematik, die auch schon oft von anderen Usern vorgerechnet wurde.
Kannst dir ja ausrechnen wie viel 96 Core Monolithen man aus einem Wafer bekommen würde, ein entsprechender Yield vorausgesetzt.

Ja, ich kann mir das ausrechnen. Du hast es scheinbar nie gemacht. Bei einem wirklich rund laufenden Fertigung (s.o., ich nehme mal eine Fehlerdichte von 0,0001/cm²) und den Standard-Wafer-Parametern des beliebtesten Rechners, ergibt ein 300-mm-Wafer 836 gute 7-×-10-mm-CCDs – 99.99er Yield. Das reicht für 69 96-Kerner.
Packe ich die gleichen zwölf Kernbereiche zu circa. 5,5 × 10 mm auf einen gemeinsem Chip, füge den gleichen 1,5 × 4 mm Management-Bereich hinzu sowie vier bis fünf Interface-Bereichen (3 würden eigentlich reichen), habe ich einen gigantischen 30 × 23,5 mm 96-Kern-Monolithen. Der käme bei gleicher Defektdichte nur noch auf .93, was aber immer noch 72 Stück prom 300-mm-Wafer bedeutet. Also drei mehr als mit dem Chiplet-Ansatz. (Alle Flächenschätzungen auf Basis von Zen-4-Die-Shots)
Braucht man 0,4 statt 0,2 mm Abstand zwischen einzelnen Chips zum zersägen, schrumpft die Ausbeute guter Exemplare umgekehrt auf 66 Chiplet-96-Kerner und weiterhin 72 Monolithen. Das wären dann schon 9 Prozent mehr. Sowas kann man, in der Tat, alles ausrechnen. Bevor man gegenteiltige Behauptungen postet.

Bezüglich der Ausbeute lohnen sich Chiplets nur wenn die Fertigung Probleme bereitet. Der Crossover in diesem, sehr extremen Rechenbeispiel*, liegt bei 0,008 Fehlern pro cm². Da schaffen die Chiplets immer noch 831 intakte Exemplare, was weiterhin knapp für 69 CPUs reicht (Yield 99.4), während die Monolithen schon auf 68 CPUs absacken (Yield 94.5). Bei hohen Fehlerraten, z.B. 0,08/cm², wo die Chiplets ihrerseits mäßige 95 Prozent Yield erzielen (=> nicht ganz 66 96-Kerner), brechen die Monolithen dann katastrophal auf 59 Prozent ein (=> 42 komplett intakte Chips). Sowas braucht man sich mit "einfacher Mathematik" aber nicht mehr angucken, da spielen die Verwertungsmöglichkeiten für teildefekte Chips eine zu große Rolle und du hast deine falsche Aussage ausdrücklich auf gute Yields bezogen. 59-Prozent-Prozesse gehören da nicht dazu.

*: Verzichtet man auf Bashing und Cherry Picking und legt das aktuell größte monolithische Design (Sapphire Rapdids MCC) mit seinen 32 Kernen einer realitätsnahen Betrachtung zu Grunde, so verschieben sich die Grenzen deutlich. Mit obigen Daten für die einzelne Bestandteile wäre der (not-so-)"Big Chip"-Ansatz dann maximal 20 × 12,5 mm groß und man hätte mit der sehr guten Fertigung 218 CPUs pro Wafer gegenüber 209 mit Chiplets. Der Crossover träte bei 0,025 Fehler/cm² ein mit 205 intakten Monolithen (94 Prozent Yield) gegen 205,5 Chiplet-CPUs (98 Prozent Yield). Real misst SRP MMC überigens 30 × 25 mm, ist also noch etwas größer als das hypothetische Kernmonster aus der ersten Rechnung, nur passen wegen des antiken Fertigungsprozesses unter der vielen Co-Prozessoren halt keine 96 Rechenkerne drauf. (63 Slices sind aber gar nicht mal weit weg.)

Zu beachten ist in allen Rechnungen, dass die Chiplet-Varianten einen aufwendigen zentralen Hub und ein komplexeres Package brauchen, um vier respektive zwölf Compute-Chips zu vernetzen, während der Monolith seinerseits nach Navi-31-Vorbild als zentraler Knoten zwischen simplen I/O-Bridges dienen kann. Nimmt man noch die Teilverwertung hinzu, dürfte der 32-Kern-Monolith selbst bei 0,1 Fehlern/cm² (171 komplett intakte Chips + teildefekte) mit einer schrottigen 78-Prozent-Yield-Rate noch genauso viel Profit einbringen, wie Chiplets mit 195× 32-Kernen je Wafer. Wer, wie Nvidia, ausschließlich Monolithen anbietet, spart zudem die Entwicklungskosten für die Interfaces und verschiebt die ökonomische Grenze so noch ein weiteres Stück in Richtung Monolith.

Das wäre die Frage, ob sie das schon können?

AMD hat mit allen dafür nötigen Techniken spätestens seit Zen 1 und Vega Erfahrung und TSMC sowieso. Die Frage ist nicht, ob sie das können, sondern ob es technisch sinnvoll wäre, so etwas mit der aktuellen Technik zu versuchen. Und meine Antwort darauf habe ich gegeben: Unwahrscheinlich. Monolithen haben einfach zu viele Vorteile.
 
Zuletzt bearbeitet:
Zurück