Hmm 4070 perf. bei der rtx5060 naja fasst
Das hängt von zwei dingen ab
mnehr fp32 per sm und welcher node es ist den der gb206 dürfte sicher sein. (36sm 2gpc)
ist es sf4 dürfte man kaum die rtx4060ti erreichen ist es n4 ja das wäre drin.
Folgende theorie
nvidi aktiviert wirder die sfu und verdreifacht deise i den sm aus einer wird 4
Diese können 4 fp32 per clock (die Einheit hat 64bit Anbindung an den sm cluster)
Daraus wird dann +16fp32 per sm zu den 88fp32 die aktuell realistisch erreicht werden =104fp32
Wenn der Takt gleich bleibt was bei n4 sicher ist bei Samsung schwankt das von 2,1 bis 2,4 je nach node optimum ist sf4x wo die 2,4ghz sicher wären.
104*36*2*2,4 =17,9tf +- rtx3070ti perf.
und
104*36*2,8*2=20,9tf =+-rtx4070 perf.
Das wäre eine Lösung die andere wäre nvidia hat die alu per sm verdoppelt also 256 effektiv rechnen dann 176fp32
Das aber würde massive die chips vergrößern weswegen das SI maximal bei 80bit wäre (10gb)
Dennoch zum spaß
176*36*2*2,4=30,4tf das wird sicher ne rtx5070
womit dann gb206 24sm wird =176*24*2*2,4=20,2tf grob rtx4070 perf
das problem dieser Lösung ist das dass Si schrumpfen muss 64bit wäre am logischsten aber auch das problematischste
80bit wären bei 28gbps =280gb/s und so kein wirklichen nutzen aus 20tf zu ziehen
Darum sehe ich eher die sfu Lösung als wahr an.
Es gäbe die Lösung die fp32 auf 192 alu per sm zu machen das aber würde nvidia zu einen 48bit design zwingen
Das ist aktuell noch nie so gemacht worden und wäre ein natives windows kompatibles 64bit mode
Die folge die Treiber wären ein komplett neue Struktur nötig und würden Jahre brauchen damit alles auch ausgelastet werden kann auf den gpu und das wird schwanken je nach spiel ob es in 64bit kompiliert wurde oder in 32bit
Alles was 64bit nutzt wird schnell laufen alles was 32bit würde die gpu nie auslasten.
Das passt nicht in das ego von nvidia daher entweder 256alu per sm oder sfu
Das ließe sich umgehen etwa durch anspreche der renderengine auf min 3 gpc nur geht das mit den rop nicht gut, den diese sind direkt gekoppelt an den gpc und können keine ungerade Teiler nutzen.
bei der Kepler gen (gtx6xx 7xx) war en die rop an dem imc gekoppelt und hatten insgesamt nur eine renderengine
zurück zu einer renderengine hat man Probleme die alu auszulasten wegem dem CPU limit.
Software Lösung greift nicht also was tun nun die sfu bietet die Möglichkeit mehr alu per sm zu nutzen das dürfte die Leistung steigern ohne in ein cpu limit zu kommen.
man wird nicht 10 Jahre an Software Entwicklung auf multicore aufgeben nur um mehr alu per sm zu haben.
Da bleibt nur verdoppeln oder sfu die sowieso in der arch seit 2006 enthalten sind und nur aus effizienzgründen Deaktiviert sind. (spart etwa 15% ein).
Da der node sowieso sehr effizient ist n4x +22% vs n5 und sf4 +20% vs 8n macht das Sinn
bsp an einer rtx3060 8n 170w tbp faktisch 28sm real 48sm sind das bei sf4 und 36sm =185w tbp bei +94% perf. und faktisch 336gb/s theoretisch dann +81%
Das wäre ein würdiger Nachfolger meiner gpu das + vs der rtx4060 grob +57% eher mehr da die sku Bandbreiten limitiert ist aber wegen der 8gb sowieso nicht profitieren kann als mehr von 288gb/s
Die spiele bestimmen wie gut die sku abschneiden und da keiner die gpu load und die vram Auslastung angibt lässt sich das kaum nachweisen wie sehr die sku voneinander abweichen
Aus Erfahrung meines Test mit 50 games von 2016 bis 2021 rtx3060 vs gtx1060 (Theorie +88%) kamen etwa 90% gpu load raus und +78% perf. Zuwachs faktisch 2464 alu vs 1280 alu 360gb/s vs 192gb/s
Die vram Belegung kam nur selten über 6gb das hat sich komplett seit 2021 geändert
Heute ist der abstand gesichert bei +90% teils mehr und das bei der gleichen cpu.
Das wird auch ne rtx4070ti passieren in 2027 mit nenn r7 3800xt
Daher wäre ne rtx5060 mit 185w tbp ok lieber wäre mir aber das in n4 node da wären es 130w
Nur ich ahne das nvidia hier auf sparen geht mit dem sf4 node und die 185w tbp ziemlich sicher sind.
Der Nachfolger kommt früh in sf3 node 2026 und wird auch die letzte 60class gpu und dann den gb205 haben mit 50sm +- 30tf
Das wird meine letzte nvidia dgpu danach folgt eine apu da auch ein Systemwechsel ansteht und es keine alternativen gibt
2028 amd zen7 60cu 128alu per cu 3,0ghz 180w tdp (ps6) 256bit si ddr6 12gt/s=345gb/s
2029 amd zen8 120cu 180w tdp 2,5ghz 384bit =518gb/s
2031 amd zen 9 144cu 200w tdp Wechsel auf neue apu für mich 2,5ghz ddr6 16gt/s=691gb/s
2033 unklar