Zur Meldung
Das ist technisch nicht machbar außer die dual issue Gerücht Stimmt wovon ich ausgehe.
Wie das nvidia umsetzt ist offen wie amd mit zusätzlichen l3 cache oder die alte sfu wieder aktiv setzen und mehr davon verbauen .
So gedacht wäre 64 fp32+64int hybrid = 16 fp32 +16fp32 Software + 32int nativ+8 sfu je 4 fp32 per clock daraus ergibt sich 88*sm count *2 +8fpu*sm count mal 4 grob 2,36 fp32 per clock.
Damit wäre man gleichauf mit amd dual issue Ansatz die 2,34 per clock erreichen.
Vorteil des Ansatzes man braucht die cache arch nicht zu ändern da die fpu sowieso eigene cache hat zwar nur die hälfte dessen was die fp32 haben aber es ist Vorhanden.
Die alu sind kleiner als die fp32 core da kein int32 part.
Mehr ipc pro Takt ermöglicht höhere Auslastung der gpu weniger Wartezyklen. Das vergrößert die logic teil nur um 10% bei +18% ipc.
Demzufolge erreichen 2,8ghz potenziell umgerechnet dann effektiv 3,16ghz mit oc dann auf 3,26ghz.
Wieso das nvidia macht ist klar wenn man in die Zukunft sieht und es klar wird das man auf mcm gehen muss
Das design also nen quasi dual chip auf dem wafer zu drucken und dann 2 von diesen mit nenn interconnect siehe blackwell b200 Ansatz dann verbindet
Das bedingt ein aktiven interposer das patent existiert seit Jahren
Das problem bisher die Latenz den diese zwingt dazu das man mehr ipc haben muss um diese Latenz beider chips anzugleichen.
Mit nenn Bild wird das Ersichtlich am ende interessiert uns nur das nvidia dann 2 gb202 verbindet zu einen 1660mm² chip (b200)
Das wird mit dem gr200 dann am desktop geben ab 2027 in high end. auf a16 node
Dann aber gesamt bei 800mm² statt 1600mm²
Mit dann doppelter alu zu aktuell (384 sm erste gen je effektiv 96fp32 per sm oder 2,18ipc)
das ziel mit dann 4 chips folgendem node a12 zu verbreitern. Afaik dann 768sm *92*2*Takt (4,0ghz)mal sm
Die Logik daraus ist das je chip die sfu Auslastung halbiert wird
Anfang nutzbar 8 sfu zweite gen 4 sfu nutzbar dritte gen 2 sfu nutzbar für die Angleichung der Latenz zwischen den chips auf dem aktiven interposer
Die Latenz bleibt aber gleich da dies simultan passiert lediglich die Auslastung per sm wird geringer.
Womit folgende sku ab gr200 kommt
8 gpc a24sm =192sm mal 2 mal 96fp32 per clock mal Takt 3,2ghz in A16 node =235tf
Das kommt dann 2027 heraus am desktop sofern amd ernsthaft angreift
amd Fahrplan
rdna5 240cu genutzt 216 und 192
rdna6 doppelt alu per cu effektiv 432cu und 384cu in a16node möglich ist auch samsung sf3x node dann aber nur 3,6ghz statt den 4,4ghz
2025 rdna5 216*64*2,11*3,6=105tf
2027 rdna6 216*128*2,11*3,6=211tf
2028 rdna7 432*128*2,06*4,0=455tf (tsmc a16 -50% Energie)
nvidia Fahrplan
2025 gb202 192sm*104*2* 2,8ghz =111tf
2027 gr202 384sm *96 *2* 3,2ghz = 235tf
Das ist das Szenario das sehr wahrscheinlich passiert am desktop sehen wir davon aber nix
da dies massiv den verbrauch seigern wird
n4 schafft gut 22% Energieeinsparung n3 wird man komplett nutzen und n2 Strom einsparen -30%
aus 192sm die potenziell in n4 395W ziehen (nur logic alleine) wird mit n3 doppelte brauchen also 790w
In a16 dann 900w das wird es am desktop nicht geben
Daher nehme ich an
Desktop
2025 bis 160sm 93tf 400w amd bis 192cu 79tf 400w
2026 bis 180sm 119tf 440w amd bis 216cu 89tf 500w
2027 bis 288sm 216tf 490w und amd bis 216cu doppelte alu 213tf 430w
Das der optimistische High end Fahrplan am desktop dürften davon nur bis 145tf geben und das bis 2028 danach dürfte das neue maximum bei 180tf sein das liegt primär an den cpu.
Die Erste 9ghz cpu kommt erst 2028 mit zen 7 auf am6 ddr6 16gt/s
Das wären vs aktuell +72% ipc
Aktuelles Limit in raster beträgt 1080p grob 30tf 2160p grob 60tf *1,723 =103tf
In dxr wird es schwieriger grob dürfte das aber bei 40tf 1080p sein 2160p =137tf
zen5 +16%
zen 6 +15% ohne ipc Steigerung dürfte aber auch grob +10% werden =26%
zen7 +25% + weitere +5% = 30%
Am ende perf Zuwachs von +72% bis 2027
daher sehe ich es so cpu limits die anfangen ab
entry 2025 1080p 60fps 22tf akä rtx4070/ rx8700xt ps5 pro
mid 2025 1440p 60fps 30tf akä rtx4070ti /rtx5060ti /rx8800xt
high end 2160p 60fps 44tf äka rtx5080
entry 2026 1080p 60fps 30tf rtx6060 (50sm) rx9700xt 80cu
mid 2026 1440p 40tf rtx6070 (60sm) rx9800xt 96cu
high end 2026 2160p 60tf rtx5080ti (96sm) rx9900xt 128cu
entry 2027 1080p 60fps 40tf rtx6070 amd apu system 60cu ps6 60cu 4,46ghz
mid 2027 1440p 60fps 53tf rtx7070 (80sm) rdna7 144cu
high end 2027 2160p 60fps 80tf rtx8070 (160sm) rdna7 192cu
entry 2028 1080p 60fps 60tf rtx9070 (96sm) amd apu 120cu
mid clas 2028 1440p 80tf rtx9080 (160sm) amd rdna7 216cu
high end 2028 2160p 60fps 120tf rtx9090 240sm (147tf) amd rdna7 134cu (125tf)
ab hier gibt es wieder cpu limits.
Die Zukunft sagt klar das es ab 2027 an keine entry gpu mehr geben wird also gpu unter 200w tbp
Die Konsole etwa 40tf erreicht mit der ps6.
Und amd ganz auf apu setzen wird mit dann 120cu bei 60tf mit ddr7 16gt/s 9,0ghz Takt 8 kern
nvidia dann entry bei rtx7070 96sm afaik 104 fp32 per sm 80tf (single chip und der letzte dieser art.) 240w
Folglich abseits persönlicher upgrade Pläne geht die Entwicklung bei dgpu klar Richtung Datacenter und der entry Bereich wird definitiv in die apu wandern und mid class dürfte sich bis 2028 mit eol Produkten abdecken was danach kommt ist offen da für nvidia sich nicht lohnt unterhalb der 80 class was zu bringen womit gpu erst ab 400w Sinn ergeben.
Daher wird nvidia schon beim a12 node die arch ändern
Mir gefällt der Weg nicht aber technisch macht nix anderes Sinn und ab tsmc a16 node mit gaa dürfte sich die Verkleinerung stark steigern lassen demzufolge steigt auch die wärmedichte womit dann nur die option Energieeinsparung bleibt ab diesen node wogegen größere Strukturen (cpu) noch klar an Takt gewinnen können
Gleiches gilt für ram
Die 3d chips habe ich mal ausgenommen diese kommen hinzu reduzieren aber die Taktraten um 25%
da dies zugleich den Strombedarf statt +50% nur bei +10% steigt wäre das ne option womit dann amd rdna7 schon doppelte alu per cu und nvidia beim Nachfolger rubin auch verdoppelte alu per sm umsetzbar wäre bei nur +10% Energie
3,4ghz bei 768sm verlockend 1,1 petaflops bei 1000w
Womit am desktop 384sm bei 500w drin wären
Dann a12 bei 425w
Dann a10 bei 350w
Zugleich kann die sm menge steigen da ich aber keine daten für tsmc a12 und a10 node habe ist das Raten.