Vom den Gerücht hab ich auch gehört.
Die 450w tgp stimmen
Die 650 und 850w sind allerdings Netzteil Empfehlungen
Real dürfte so eine sku nicht umsetzbar sein.
Zudem so schlecht kann der 5nm node nicht sein.
Nvidia wird sicherlich die grundlegen tesla architektur von 2006 nicht geändert haben die sfu der erste gen zurückkommen wird vermutlich erst mit hopper (rtx50) kommen.
Den irgendwas muss nvidia tun und da man sowieso in mcm die arch ändern muss kann man auch gleich das sm modul auf mehr fp32 Durchsatz prügeln damals war 3 fp32 operationen in einen takt (heute 2)
Das nvidia die sfu direkt nach der ersten tesla generation (g80 8800gtx) aufgegeben hat lag an den kosten.
Die SM struktur war so aufgebaut da der coreclock vom shaderclock getrennt war.
Die sfu übernahmen dann reine ganzzahl berechnungen die normalen alu übernahmen dann fp32 und int32
Gerechnet hat man immer fp32 leistung und heutige games sind reine ganzzahl berechnungen da spiele nicht mehr in Starre pixel und vertex shader berechnet werden.
Die Änderung kam mit directx 11 wo directx 10 noch ähnlich zu dx9 war und feste vertex und pixel shader bedingte, quasi wird heute dx9 emuliert.
Das bedingt zwangsläufig zu einen cpu limit, auch weil man mit einen cpu thread die drawcalls zwingend braucht.
Diese Prämisse gilt in manchen engines immer noch wogegen nvidia das so gelöst hat das man den dx9 render in quasi dx10 emuliert
Die architektur kann dies seit 2006 seitdem hat sich im Grunde nur weniges geändert 2008 mit tesla 2 wurden die sfu (spezial function units) aus dem sm (shader module)entfernt gründe waren wärme dichte und Kosten.
Erst mit maxwell 2014 (tesla gen 5) hatte man massivste die gpu oc eine Rückkehr der sfu war ausgeschlossen da man die Konsumenten chips die fp64 Fähigkeit geraubt hatte Ergebnis war das die chips deutlich weniger wärmedichte hatten.
Und man konnte die chip deutlich höher Takten
Seitdem sind nur noch die shader Anzahl gestiegen und mehr wärmedichte
mit tesla gen8 wurde die RT cores addiert mit tensor kerne die reine ai kerne sind.
Nvidia hätte die Möglichkeit wieder sfu für fp32 in nen sm einzubauen das würde zwar die Taktraten reduzieren auf ein drittel aber bei möglichen 2,5ghz wären dann nur 40sm pro chip in nen mcm dann so schnell
40*128/2*1,5*3*2ghz= 23tf bei nur 112mm² (3nm)
Lovelace wird aber die taktkeule nutzen was aber zu nen harten Strombedarf kommen wird durch wärme dichte.
Aus nen 144sm chip werden dann 2,3ghz geprügelt was im übrigen die ampere architektur ist.
So viel ändert sich mit lovelace (tesla gen10) nichts. es ist im Grunde oc ampere ans maximum.
So gesehen erreicht der ad102 mit 144sm und 136sm aktiv 60tf bei 450-500w
Sweetspot ist aber 2,0ghz ab dann wird zum Quadrat ineffizienter
Sweetspot ist über einen volt davor skaliert w mit performance linear
sprich je 100mhz =+0,01v
ab 1,05volt wird es zum Quadrat ineffizienter
rechnen wir
angenommen 500w dann geteilt von max Spannung 1,2v mehr verkraften gpu nicht
100mhz weniger =347w.
200mhz weniger =262w.
300mhz weniger=216w.
Von den angenommenen 2,3ghz bleiben dann 2,0ghz und nur noch 216w für 136sm
Das Problem ist das der chip groß ist und somit teuer ich gehe von etwa 528mm² aus.
Aber der 5nm wafer kostet 16500$ und hat ne yield von etwa 47%
ergeben dann 46 gute chips und 51 defekte chips.
Aus bwl Sicht würde ich so rechnen 16500/46=358$+ vram 240$ *marge 70% das zahlt der aib 1017$.
Dazu 100$ für bom, 20% marge für den aib grenze nach oben offen
10% Großhandel und transport zwischen 10-30$ derzeit und 10% Einzelhandel Ergeben dann deutsche UVP von 1739€
Dann die sku 80ti mit uvp ab 939€ und nur 12 vram,
Glaubwürdiger wird aber sein da auch die 80ti mit 24gb kommt was den preis auf 1249€ erhöht
Wie viele sm aktiv sind hängt von der Defektivität des chips ab ich nehme an das von den 12sm nur 10 oder 11sm pro gpc laufen werden
also ne sku mit 100sm oder 106sm
Ergeben dann folgende sku mit dem ad102
rtx4090 500w bei 2,3ghz und 60tf 1739€
rtx4080ti 400w bei 2,2ghz und 57tf bei 1249€
Ad104 mit 10gpc 120sm sind nur 96 aktiv bedeutet 6gpc 10sm und 4gpc 9sm
Dieser wird mt 2,2gnz und etwa 336w verbrauchen wo man in 2,0ghz bei 216w wäre
Sprich die rtx4080 96sm und 40tf mit tgp von 336w und eine uvp von 939€
Darunter als rtx4070 mit 70sm =29,5tf und nur noch 245w tgp und eine uvp von 729€
Der haken 8gb vram daher zweifle ich das dass so kommen wird
Sinniger wäre wenn man den ad106 mit 5gpc ans limit oc was bei 5nm etwa 2,5ghz wäre.
Da aber 2,2ghz gesetzt wurden mit 52sm aktiv für die rtx4070 und etwa 235w tgp und 21,9tf
Sprich rtx4070= 52sm 2,2ghz=21,9tf bei 195w tgp und 699€ da wird aber amd und intel druck erzeugen.
Möglich das dann das eine rtx4060ti wird und die rtx4070 doch den ga104 bekommt.
ich hoffe auf nen rtx4060 mit nen ad107 und 3gpc = 33sm-36sm der chip müsste um die 248mm² sein und bei 13,9-15,2tf sein bei etwa 195w tgp und ner uvp von 399€
Die letzte sku wird der ad108 mit 2gpc und ebenfalls 2,2ghz mit aktiven 20-22sm
8,4tf-9,3tf
Sku wäre dann
rtx4050 9,3tf mit etwa 148w tgp und ner uvp von 279€ allerdings nur mit 6gb vram
ad107 und ad108 wären dann 6nm tsmc
Der Ausblick auf hopper mit rtx 50 und eventuell Änderung des SM wird dann zeigen wie effizient es wird.
Da aber 3nm ziemlich in Bedrängnis gekommen ist, wird es wohl 4nm werden das bedingt nur Taktsteigerungen aber keine Größenänderung das wird zum Problem
Den von mit gedachten 112mm² wird nix
Es wären min dann chips von etwa 160mm² und die kleinste sku müsste min 499€ kosten mit 16gb vram die dann nötig sind ab 2025
Auch wen der chip mit 23tf nur als rtx5060 kommt.
Mit 12gb vram käme man auf 429€
Und ner sku mit 8gb vram die dann zu wenig sind auf 339€ als rtx5050
nen kleineren chip wäre da die Lösung mit nur 2gpc= 20sm
11,5tf und ner uvp von 289€ als rtx5050
von lovelace ad108 aus mit 9,3tf ist das eine Steigerung aber ner 50er karte für 289€ 2025 schwer zu vermitteln.
Nvidia muss auf ältere nodes zurückgreifen anders kann kein line up geben mit lovelace rtx40 wird e noch gehen da die preise noch hoch sind, ab dann wenn intel eingreift ist das Geschichte
ich gehe davon das ab 2023 9tf bei etwa 150€ liegt
Das kann nvidia nicht mit dem 6nm node erreichen darum erwarte ich das nvidia ihre sture chip vram kombo wieder einzeln verkauft und der vram zur bom (build of material) kommt.
Das wird die sku preise drastisch senken.
nach 4 Jahren erstmals eine Steigerung bei 200€ Bereich das musste mal reinziehen
2016 etwa 4tf gtx 1060 3gb
2019 etwa 5tf gtx 1650s 4gb
2022 etwa gleich rtx3050 8gb
2023 etwa 9tf rtx4050 8gb nach Annahme von 8gb vram und vram in bom =239€ uvp Statt 279€
Das aber hängt von intel ab ob der arc 384 für 249€ kommt etwa 13,2tf
Umsetzbar ist es der chip müsste um die 300mm² sein aber intels marge nur 10%
Daher wird es Spannend was nvidia macht wird nvidia zum ersten mal nach 15 Jahren ihre marge senken?
Also beten wir das intel Treiber kann den dann könnte es wieder günstige dgpu geben ab 100€
Den soviel wird der arc 128 kosten mit etwa 5tf.
Zur Erinnerung die rtx3050 wäre gleichschnell und kostet derzeit ab 320€
amd pedant rx6500xt bei 240€
amd und nvidia müsste ihre marge auf 30% senken und den vram aus dem Direktverkauf raus.
möglicher preis rx 6500xt 100€
möglicher preis rtx3050 179€
bedingt aber das der vram preis auf 6$ fällt.
Das sehe ich nur bedingt da samsung hynix und micron eher auf schnelleren vram verkaufen als alten gddr6 16gbits zu bleiben Derzeit 10$ pro gb voraussichtlich 2023 bei 8$
Diese wurden schon von 18gbits chips ersetzt und 2023 kommen 20 und 24gbits dazu.
Ob noch 16gbits dann für 6$ drin sind ist offen.
Wenn intel auf 16gbits setzen wird kann man davon ausgehen das rtx 4050 mit 13tf bei 179€ sein wird.
Das aber ist ein großes Wenn und wäre das Idealszenario für uns Kunden.
Die erste Annahme oben ist realistischer und was den verbrauch angeht die rtx4050 wird etwa 150w brauchen maxed oc ab werk
high end interessiert mich wirklich nicht aber die Angabe 850w ist völliger Blödsinn.
Das nvidia sich dazu genötigt fühlt stellt klar das amd was großes hat und wenn die arch die fp32 Effizienz angeht ist klar warum nur 5120 shader wovon 4096 aktiv sind schon Konkurrenz zum n21 wird.
Mein verdacht ist das amd die fp32 auf 3 Operationen in einen wgp schafft.
Sprich 2,5ghz *3*4096=30tf und das ist nur der cut chip von 5120 alu
n33 maxed oc 300w als rx7700xt
n33 vollausbau 5120 bei 38tf als rx7800 400w
n32 2 chips 450w maxed 1,8ghz=55tf mögliche desktop release rx7900xt
n31 2 chips 450w maxed 1,6ghz=73tf professional only
Die frage ist was kostet das amd mcm wird teuer darum gehe ich von ner uvp von min 2500€ aus
Die Einzel sku dagegen
7800 16gb 839€ wohlgemerkt mit maxed 38tf
Und den 7700xt mit 499€ und 12gb vram bei 30tf
Nvidia kann nichts entgegensetzen den ad 104 mit nur 70sm wäre drin aber der vram preis macht es quasi unmöglich unterhalb von 729€ zu kommen.
Folgend wird nvidia schon beim teuren ad104 auf vram chip bundel verzichten und die marge auf 50% senken müssen.
man käme dann auf 509€ uvp bei derzeitigen vram preisen.
2023 wird ein gutes Jahr sofern kein Weltkrieg kommt.
Dieses Jahr würde ich nur dann kaufen wenn man muss bzw noch auf hardware von 2016-2019 sitzt
200€ Bereichalsrtx4050 ab 2023 für 9tf bei entweder 279€ oder 179€ je nachdem was intel bringt.
300€ Bereich als rtx4060 15tf
500€ Bereich als rtx 4070 30tf
900€ Bereich als rtx4080 40tf
1300€ Bereich als rtx 4080ti 57tf
Nvidia architektur
alu=shader
derzeit 128 in einen shader modul
2 Operationen je shader pro takt
ein gpc hat 12sm
ga100 12gpc 754mm²
ga102 10gpc 628mm²
ad102 12gpc 528mm²
ad104 9gpc 276mm²
ga104 6gpc 392mm²
ga106 3gpc 276mm
ad106 5gpc 274mm²
ga107 2gpc ~185mm²
ad107 2gpc ~170mm²
amd architektur
rdna3
Wgp =work grafic processor= 256 shader
Ein wgp kann 3 operationen pro takt in einen wgp
Das aber ist vermutet anders falls müsste amd die Margen senken und das sehe ich nicht.
n33 =20wgp 6nm Monolith
n32 =40wgp/mcm mit Brückenchip und extra cache auf den Dies
n31 =60wgp/mcm
Ein chip hat 7680 shader 546mm² 30wgp
n33 nur 5120shader 364mm² 20wgp
mögliche vram bei beiden gddr7 32gbits und gddr6 24gbits sowie 20gbits.
intel wird schwieriger hier muss man sich die xe arch der igp ansehen
Sicher ist der Name der module heißt EU
in arc 128 sind 128 EU je 8 shader drin
Der größte chip hat 512EU =4096shader
Daher kann intel nur über den preis Konkurrieren Sofern intel Treiber kann.
arc 512 vermutlich um die 15tf-18tf =rtx3060ti -rtx3070 kampfpreis um die 300-350€
arc 384 vermutlich 11-14,7tf gegner rtx3060-rtx3060ti kampfpreis um die 150-200€
arc 128 vermutlich 5tf gegner rtx3050 mit kampfpreis um die 100-150€
intel könnte auf 16gbits/18gbits setzen
Das mal als Gedanke was ich vermute.