hacja Märchenstund
Nun da die auslese der ad102 beendet ist geht es jetzt um die sku die möglich sind
ich zweifle an der Notwendigkeit eines chips mit 142 aktiven sm bei etwa 800w
Wir kennen hopper (h100 pcie 128sm 4n) und der sm Aufbau ist folgender 128 fp32 64 fp64 64 int32 keine rt cores
und das in 814mm² gepackt
Da hopper genau 64 mehr kerne hat als ada und etwa 600mm² groß ist
Ergeben sich folgende Vorrausagen
hopper tbp ist 350w bei 1,8ghz
Weil aber hopper etwa 50% mehr kerne hat und die rt cores etwa 1/3 der Fläche nutzen als die fp64 Einheiten ergeben das 542mm² an fp32 und int32 cores mit dann +60mm² für die rt cores = etwa 600mm²
Daraus ergibt sich folgende wärmedichte bei 128sm 206w+1/4für die rt cores
258w ohne vram bei 1,8ghz bei 142 sm dann 286w
Da wir aber bis zu 800w gehe können mit vram wird das ab angenommen 1v bei 1,8ghz
Dann ab 1,05v quadrat bei 2,7ghz und 621w+ 90w an vram=690w tbp
abseits davon das dies wirklich golden sample sein müssen glaube ich kaum das nvidia den chip im Oktober bringt
Dagegen sprechen auch die performance voraussagen die bisher gekommen sind
aber alles hängt davon ab wie der sm Aufbau ist
Bisher ist die fp64 Einheit nirgends zu finden in den sfu könnte diese sein ist aber Ansicht von ampere design unwahrscheinlich
Das hopper design könnte sogar näher dran sein
Aber ich glaube eher das man die fp32 mit den fp64 verbunden hat in 96fp32 und 32fp64 die dediziert rechnen
Die int32 können seit jeher nur für Ganzzahlen rechnen
Die mär vom hybrid fp32 int32 Einheit kann nicht stimmen dagegen sprechen alle test der performance in turing vs pascal vs kepler vs ampere
Und nein die ipc der gpu kann nicht steigen das ist rein linear da die Formeln für grafik nicht mehr kleiner geteilt werden kann.
Und eine komplexe formel wie bei x86 würde sogar zu heftigen cpu limits führen siehe amd Fehltritt bei gcn das eine fp64 Architektur hatte und an front end verhungerte.
Man muss auf die kleinsten nenner kommen und da ist die formel eben 1 shader kann 2 operationen ausführen da wird nix schneller durch cache und co
Was wirklich hilft ist mehr Takt ist ähnlich zu x86 ohne Befehlssatzerweiterungen nur der Takt kann mehr performance bringen.
Da aber x86 primär nicht Echtzeit ist hat man die chance mehr Arbeit in eine cycle zu machen kurz die ipc kann sich steigern.
bei gpu ist das nicht möglich hier skaliert alles mit dem Takt und Anzahl
aber nur so lange bis die drawcalls von der cpu kommen.
Das Thema cpu limit wird ab ada sehr präsent
ich würd sogar ab der rtx4070 nur noch 4k in raster benchen da man darunter immer in cpu limits kommt abseits von dxr
Die frage stellt sich also was bei den kleineren chips ad106 und ad104 für tbp genommen wird
Das ad104 maximal 72sm hat sollte logisch sein wieviel davon aktiv sind offen von 64-46 ist alles drin
auch der ad106 wäre von 48 möglichen 46-28 machbar.
Und das bei voraussichtlichen 2,5-2,9ghz auch umsetzbar.
Welchen chip aber die rtx4070 haben wird ist völlig offen
Die auslese kommt erst im okt und wen der ad106 erst im dez dann dauert es normalerweise etwa 2 Monate zum release
Die rtx4090 kann 128sm oder nur 116sm haben das ist noch offen wie es scheint hat man die 128sm festgelegt.
Und da es davon nen timespy extrem bench gibt +65% - +80% vs rtx3090ti
gehe ich stark von 45-50tf aus.
Und wir kennen tse das ist quasi das optimum was erreicht werden kann
demzufolge muss es so sein das 96fp32 rechnen bis 2,7-3,0ghz
oder 64fp32 +64fp64 die nur zur hälfte fp32 rechnen also 32 fp32 =96fp32 pro sm
Anders kann es nicht sein den die performance müsste bei 128sm deutlich höher sein als nur +80%
rechnen wir mal 142*96*2*2,7=73,6tf
73,6/28,6=+157%
Daher glaube ich nicht das diese sku annähernd am desktop kommt.
Möglich wäre diese
Eher ist es aber 128sm oder 116sm bei nur 2,5ghz (450w limit) was etwa 60tf wären
da der tse bench das widerspricht gehe ich sogar davon aus das nur 110sm aktiv sind
2,6ghz sind quasi gesetzt 110*96*2*2,6=54,9tf das würde auch die 21000 tse point bestätigen
Die als letztes Angemerkt wurden das würde bei etwa 2,75ghz erreicht werden
bei etwa 600w tbp
Nun zeig mir die cpu die bei 1440p das auslasten kann geschweige von 1080p
Prognose ist
titan die besagte 142sm mit 48gb bei 2,6ghz 600w tbp
Alternative quadro karte 450w gedeckelt
rtx4090ti 128sm 600w tbp 2,6ghz etwa 60tf q1 2023 bei bedarf
rtx4090 110sm 450w 2,6-2,8ghz etwa 54-58tf cpu limits bei tse möglich
rtx4080 ad103 84sm 2,7ghz etwa 43tf
rtx4070 ad103 70sm das kann aber auch der ad104 nit 56sm sein daher unklar von 29tf -36tf
rtx4060 von ad106 bis ad104 möglich min 28sm maximal 46sm 14,5-23,8tf
46sm 2,8ghz 12gb vram =225w tbp
bei 32sm 17,2tf und 8gb vram 140w tbp
beides wäre eine option zum upgrade letztere würde nur de vram dagegen sprechen.
also rtx4060 ti 46sm möglich 225w 12gb vram 18gbits
und rtx4060 32-36sm 140w tbp mit 8gb vram 18gbits
8 gb vram reichen für 1080p bis die neure Konsolen also ps5 pro kommt Ein Henne Ei problem
Die rtx4060ti mit 46 sm und 12gb aber 225w sprechen dagegen dazu 24,7tf das wird kaum eine cpu die derzeit gibt auf 1080p auslasten können
vernünftiger wäre statt 2,8ghz dann nur 2,6ghz und nur 160w tbp 22,9tf vs rtx3060ti +80%
Das würde Sinn machen
Diese genauen Rechnungen sind Ableitungen von derzeit bekannten daten
von hopper 4n
Und dem sm leak von ada
Mit 128fp32 pro sm wäre die werte noch höher um genau 1/4
Darum zweifle ich auch das nvidia diese Strategie fährt
Einzig das Flaggschiff titan mit 142 sm und die rtx4090ti mit 128sm finde ich real
Die rtx4090 wird entweder 110sm oder 116sm haben und der tse ist voll in einen cpu limit.
Wichtiger sind ad106 und ad104 das werden die 250€ -500€ gpu werden
Amd n33 mit 4096 und voraussichtlichen 3,0-3,5ghz sprechen dafür zumal amd sehr billig fertigen kann sku etwa dann 379€ bei 29tf
Der n33 wird maximal 300mm² haben und in 6nm die 3/4 kosten vs nvidia ad104 300mm² sku dann min 499€
Dabei ist amd chip sogar schneller wenn nvidia nur 52 sm nutzt.
Das aber wird erst im Oktober festgelegt
mögliche sm sind 64 60 56 52 48 46 von 72sm.
Das hängt von den yields ab und wie hoch die chips dann Takten linear wären von 2,5-2,8ghz drin bei 1,1v
Folglich muss nvidia min den ad103 nutzen mit 72-76sm um bei amd mitzuhalten
das wird teuer min preis wären dann 699€
Das wird nvidia zu deutlichen Margen Kürzungen zwingen von derzeit 70% hinab zu 50% das passiert aber nur wenn amd die preise so tief ansetzen wird
ich geh aber eher von 499€ aus für die rx7700xt was auch bedeutet das amd die marge von 70% auf dann 90% erhöht
Da kann nvidia mit dem ad104 und 56sm dagegen halten bei 499€ und die 70% marge bleibt
meine Prognosen haben sich deutlich verbessert je näher der release ist und erstaunliche Effizienz dargelegt aber nvidia könnte das bei den sku design verkacken
Etwa den ad106 bei 2,9ghz und 1,12v was dann 17,8tf mit 230w tbp wären und das als rtx4060ti (+40% vs rtx3060ti) (+60% vs rtx3060)
aber wie gesagt die endgültigen sku werden erst im dez festgelegt
Bei ad102 sind sie es schon
Die 142sm überraschen aber dennoch das müssen golden samples sein.
Oder eben quadro sku was sehr wahrscheinlich wäre.
Allgemein Hätte es im März 2022 keinen Nvidai hack gegeben wüssten wir nix
nahezu 80% der infos stamme aus diesen hack bspw chips konfigs das die sku also die engültigen modelle noch nicht festgelegt sind ist klar das hängt vonder yield ab und as wird erst 2 Monate vor release festglegt
Wir habe die sitaution wie 2018 nur da wir gleichzeitig heftige inflation haben
also kann nvidia nicht einfach die preise ins nirvana schicken.
Zumal amd diesmal ernsthafte Konkurrenz ist. und am low end intel lauert
battlemage könnte ab q3 2023 deutlich den markt nach untern drücken bei low end
ich sehe die 100€ 5tf gpu kommen Mitte 2023
Und in der Einstiegssegment ab 20tf für 300€