Soweit mor bekannt ist ändetrt sich mit 6nm nur die vram chips am gpu taklt hängt s primäer von der kühlkung abudn da erwarte ich amximal 100mhz das bedingt maximal 1-5%
Die reine bancbreite bringt nix da die chips dafür zu langsam sind
Vielleicht in 4k wo die bandbreite langsam Sinn macht
Waruk nun für 1080 genpügen 250gb/s
für 1440p etwa 350gb/s
für 2160p etwa 600gb/s
Und solange spiele nicht mehr fordern wird sich das nicht ändern.
von 2,5ghz auf 2,6ghz sind nur 4%
Was mit 6nm möglich sieht man an n24 chip und wo dieser taktet nahe der 2,8ghz mit der brechstange (auch weil der chip zu klein ist)
Sowas passiert wenn ein notebook chip zu spät fertig wird und der Nachfolger schon in den apu sitzt
Diese gpu sollte schon mit rdna2 launch bei laptps in 55(6)00u/h und 57(8)00u/h sein
bekanntlich gecancelt.
Also hatte man design eines chips womit man nix machen konnte und am desktop sind die sku nur mit neuen Systemen brauchbar.
Siehe rx6500xt (etwa gtx1060) und rx6400 (etwa gtx770/gtx1050ti)
Am ende ist der refresh nur konsequent da amd keinen kleineren chip als den n33 designet hat.
Womit im low end nix gibt und n33 wird min 399-799€ kosten trotz nur 8gb vram
Somit passen rx6650 für 149€ und rx6750 für 299€ schon gut
Warum nun Intel steht vor der Tür und da reichen die 10tf und etwa 13tf gerade mal für 250€ ohne intel dann 400€
amd plan ist 500€ und dann n33 über 600-800€ anzusetzen.
Nur wird der markt das diesmal nicht zulassen
N33 erwartbare Leistung zwischen 23,5tf und 19tf
Die tf Metrik ist wen aufn nen Nenner gebracht eine grobe Leistungsorientierung.
Dabei gilt relativ zum schnellsten Modell an gpu die es derzeit gibt und gegeneinnander.
Gute Tabelle dazu techpowerup.
Diese stützt sich auf Test und mathematischen abständen leider werden nicht konsequent die fp32 auf nen Nenner gebracht.
Was test erforderlich macht für die sku.
SKU stock keep units
darauf basieren zu 90% meiner aussagen und eigene Test als basiswertund dieser ist nicht geschönt
ganzw ichtig ist je größer der chip dsto eher komt ,man in ein cpu limit bi mit 1080p und cb15 wert von 213 ab ner rtx3060ti ist schluss
Das gilt spiel bis 2022 ohne dxr
DXr ist eine andere dimension an anforderung hier gehe ich fast von ner verdoppellung an gpu leistung je auflösung an drawcallsreduzierung.
also mehr pixel bevor die cpu dicht macht.
Das ist aber eine außnhasme alles andee rennt ich quasis ij nen cpu limit ab ner rtx3060ti was etwa 12tf sind
Ampere hat 96 fp32 operationen pro sm
Es geistert sogar 88tp32 rum da nicht klar ist wie nvidia die chips kastriert hat.
angeblich sollen 24 fp64 aktiv sein. das reduziert die leistung auf 8,8tf fürn rtx3060
Von mathe her könnte das passen nahc meine test gtx1060 vs rtx306 hatte ich im schnitt nur 74% mehr leistung. 4,95tf *1,74=8,6tf was mit cpu limit hinkommt.
Warum die diskrepanz nun es liegt am whitepaper das die Bilder nicht ganz dem entsprechen was real ist auch ein Zeichen das nvidia hier klar die sm stärker beschneidet als nötig
Von dem ga106 sind 1/3 des chips deaktiviert.
4 gpc zu je 12sm wo nur 8 aktiv sind und davon nur 7sm
4*7= 28sm pro sm sind 128 alu drin 64 int32 64int 64 und nur 24 fp64 das kommt daher das 8 fp64 deaktiviert sind
Daher ist auch klar warum von 48sm des chips nur 1/3 läuft zeigt deutlichd as samsung 8nm node fürn arsch ist
Umso mehr übberraschtes michd as nvidia eine komplette neue serie gibt mit ada anstatt erstmal den ampere auf 6nm zu protieren den das design für 7nm gab es ja.
das kann ich mir so erklären das nvidia hier deutliche nachteile bei den sku kosten sah.
jman droht bei dxr hinterherzuhängen und da hilft es nix wenn ampere nochmal aufgelegt wird. Und dann die größeren sku in kleineren slku kommen bspo ga114 für nen rtx xx60er sku
da sind sogar die 9000$ vs 16500$ pro wafer etwa gleich teuer
aber der neue ad106 mit nur ein drittel der kosten billiger zu fertigen zumal weniger vram nötig sind. (339mm² vs 175mm²)
Oder 59$ 5nm vs 65$ 6nm
Dazu der neuere rt core der einiges wettmachen wird.
Es ist echt ne schande das nvidia ampere nih auf 7nm gebracht hat 1/3 des chips sind müll.
das ist bei allen sku so
ga102 10gpc nur 84sm aktiv von 120
ga103s 8 gpc nur 70sm aktiv on 96 nur in laptops
ga104 6gpz nur 48 aktiv von 72sm
ga106 4gpc nur 28aktiv von 48sm
ga107 2gpc 20aktiv von 24sm da der chip 1,5jahr später kam hatte smsung erst jetzt die ield sowit das nur 2sm deaktiviert sind satt wie bisher pro gpc bis zu 4sm weniger
Klar könnte man ampere refreshen auf 10sm pro gpc uhd den takt erhlöhen ohne die die fläöche zu vergrößern.
Das hätte man auch getan hätte samsung nicht 5nm eingestampft.
So wie es jetzt aussieht ist ada (lovelace) bis zu 40% je sku schneller
Das entnehme icha us den performance prognose heraus von wctftech
liste dazu
NVIDIA Ada Lovelace & Ampere GPU Comparison
| Ada Lovelace GPU | SMs | CUDA Cores | Top SKU | Memory Bus | Ampere GPU | SMs | CUDA Cores | Top SKU | Memory Bus | SM Increase (% Over Ampere) |
|---|
| AD102 | 144/1,95ghz | 18432 | RTX 4090? | 384-bit | GA102 | 84 | 10752 | RTX 3090 Ti | 384-bit | +71% |
| AD103 | 84/2,0ghz | 10752 | RTX 4070? | 256-bit | GA103S | 60 | 7680 | RTX 3080 Ti | 256-bit | +40% |
| AD104 | 60/2ghz | 7680 | RTX 4060? | 192-bit | GA104 | 48 | 6144 | RTX 3070 Ti | 256-bit | +25% |
| AD106 | 36/1,68ghz | 4608 | RTX 4050 Ti? | 128-bit | GA106 | 30 | 3840 | RTX 3060 | 192-bit | +20% |
| AD107 | 24/1,8ghz | 3072 | RTX 4050? | 128-bit | GA107 | 20 | 2560 | RTX 3050 | 128-bit | +20% |
Wenn das zutrifft stelle ich mir ernsthaft die frage was zum Geier nvidia hier macht
Entweder die 600w tbp stimmen nicht beim high end oder die chips sind auch wie ampere drastisch beschnitten
Den so niedrige Taktraten bei 5nm sind unglaubhaft oder lovelace hat extreme leakage Probleme=
Wärmestau.
Daher geh ich eher davon aus das die sm bei den chips gleich bleiben und der takt um die Prozente steigen.
Letztere wäre sehr ineffizient womit backwell 2024 erst eine Wechsel option sein wird.
Die kleineren sku
Wären bei
ad103 ~400w 2ghz
ad104 300w 2ghz
ad106 200w 1,68ghz
ad107 150w 1,7ghz
Das nen ich mal voll an die wand gefahren aus möglichen 2,5ghz bei nen shrink werden unter 2ghz
Da muss nvidia aber mächtig was verplant haben wenn das zutrifft oder die Masken waren ursprünglich für samsung gedacht deren 5nm node war weniger dicht geplant.
Folglich muss lovelace ein heftige wärmestau haben auf dem chips.
Wie das nvidia lösen will mit backwell mal sehen den ohne grundlegende arch Änderung wird das nix.
Eine Lösung wäre wie amd die chip teile zu splitten und cache und gpu clock zu trennen.
Den ws warm wird sind L2 cache sowie in den sm der L1 wenn dieser schneller als 1,9ghz rennt.
Möglich wäre das mit doppelten cache Größe den Takt zu halbieren. Um dann keine Wartezyklen zu haben müsste der L2 auf alle gpc verteilt werden sprich ein L3 cache
Der vor dem Si sitzt
Am ende dann den gpu clock cache und tmu rop vom shaderclock aufheben
Die fp32 Leistung multipliziert sich auf 2,80ghz während die cache takt bei 1,9hz bleibt.
Das wäre quasi zurück zum Anfang von fermi gen von 2010.
gpu clock 1:2 shader clock.
Das wird mit fp64 sehr warm da diese Einheiten dediziert sind kann man sie deaktivieren für fp32 operationen
Bliebe aber nur noch 64 fp32 pro sm x sm count mal maximal 2,5ghz bsp ad102 64*136*2*2,5=43,5tf bis 48,7tf (2,8ghz) was dann +69% wären.
Das würde passen. bedeutet aber auch das der cache sehr heiß wird und somit zu klein an Fläche ist.
Ein klares indiz das man den shrink vor dem design gesetzt hat derzeit 606mm² für 144sm
Das entspräche der wärmedichte von ampere exakt gleich bei 4,16w pro sm also ist da nix mit Takt. über 2,0ghz drin
also muss nvidia in backwell die architektur auf mehr fp32 operatiunen oder mehr shader setzen
Hier stellt sich die frage was man im marketing sagen wird 64*136 oder bleibt man bei den irreführenden 128 fp16
Den die Leistung vs ampere ist geringer pro sm da weniger fp Arbeien als bei ampere 88 vs 64
Die int32 hatten nie eine wirkliche Bedeutung bei directx und werden im prinzip nur für die festen werte aus den Jahren vor fp32 verwendet bei dx9 und älter.
Was auch nur bedingt stimmt
Daher müsste man diese auch kürzen können auf 32 und es würde kaum nen unterschied machen
Und dafür mehr fp32 bsp 96 einsetzen.
Das wär ein kompromiss um die deaktivierten fp64 zu ersetzen
Was dann aber keine consumer gpu mehr fähig wäre doppelte genauigkeit zu rechnen.
Also muss fp64 min mit 16 rechnen (nur doppelte geauigkeit)
Das wärme problem lässt sich nur durch weniger vcore beheben also erst bei 3nm ohne shrink
Und da wird zu teuer da der 3nm wafer zwischen 25k bis 30k kosten wird.
MCM ist also Pflicht. mit 4nm erwarte ich 6% mehr Effizienz
bei high end wird aus 600w dann nur noch 564w
Bei den kleineren sku dann 188w für hoffentlich 44sm aktiv Statt 36sm
ich will nicht das dies so eintritt den das wär das ende von nvidia Effizienz. bis sie auf mcm setzen werden pro chip dann bei 18 shader pro gpc dann 4 gpc tiles.
externen victim L2 und L3 als kompletten cache
verbunden mit aktiven interposer (L2)
Bis zu 4 chips + brückenchip für I/O und L3 der als SI bis zu 512bit verbunden ist
verbunden dann i/o 6nm interposer mit L2 12nm 4 x chips 3nm und 4nm
ab gb104
2 chipaubaustufen 4gpc und 2gpc
Ergeben
gb102 16*18=288sm 3199€ 32gb 512bit 104tf-156tf profi exklusiv bsp b8000
gb103 drei chips 12*18 = 196sm 24gb 2499€ drin etwa 70t-105tf halo Produkt als rtx5090 bzw rtx6090
gb104 8*18 144sm 51tf-76,5tf 589€ 256bit 16gb bsp rtx5080
gb106 nur 3 chips 6*18=102sm 36tf-54tf etwa 495€ 12gb 192bit rtx5070
gb107 nur 2 chips 4*18 72sm ~25tf-37,5tf 379€ 8gb 128bit rtx5060
(Grund dazu ist es ist nicht klar ob 64fp32 verbleiben oder 96fp32 kommen, hopper wäre ein indiz da es aber wie bei ampere um fp16 handelt unklar ein whitepaper gibt es derzeit nicht)
Skus werden dann auch mit einen chip geben ohne mcm diese werden dann unter 300€ platziert mit 46sm und weniger Gut möglich das nvidia einfach lovelace weiterlaufen lässt den ad107 und ad106 je 22sm und 46sm in 4nm
Das aber ist Musik ab 2025
Das klappt aber nur dann wenn intel keine Konkurrenz wird.
Da schon lovelace ad104 mit 21tf bei intel konkurrenz bei 329€ sein wird ohne sehe ich da 479€
Für 2022 ab sept okt rum.
Was mir sauer aufstößt ist der Hohe strombedarf für 21tf etwa 288w
Das ist derbe enttäuschend das nvidia die ganze effizient für den shrink opfert.
ich hoffe das backwell mit mcm den hitzestau auflöst und somit den verbrauch um 2/3 senkt.
Die Konsequenz wäre das die sku mit 6 gpc dann maximal 200€ kosten müsste
Das geht aus Betriebswirtschaftlichen gründen aber nicht oder nvidia müsste auf marge verzichten. Bevor das passiert haut man auf die verbrauch keule. Egal ob dann ne Einstiegs gpu (60er klasse) bei 300w liegt.
Das man noch schlechter effizienz als bei ampere erreicht hätte ich nicht gedacht
Meine Meinung, wenn das zutrifft falsch geplant