Prozessorarchitektur
Lötkolbengott/-göttin
Die rtx40 gen hätte so gut sein können, sie konnte nicht da nvidia ansonsten auf alle zu viel produzierten rtx30 gen sku sitzengeblieben wäre.
Das hat nvidia ganz brav an die Händler ausgesessen
rtx40 verkauft sich sehr mies bis schlecht nur sku ab 12gb vram zögerlich und 16gb erst ordentlich darum fallen die preise nur bedingt bei diesen sku eigentlich müsste nvidia drastisch die preise senken mt einer Aktion bei den aib von min 20% je sku
Dann gehen die lager ganz schnell leer.
ne 8gb sku ist htpc und als verbesserte Videobeschleuniger zu sehen 2024.
Demzufolge müsste der preis bei etwa 200€/180$ an anfangen bis 300€/270$ im maximum.
ne 12gb sku ab 350$ und ne 16gb sku ab 450$
Die folgende gen wird erst ab dem refresh 2026 (gb302 305) gute sku haben
Sicher ist das es ein dual druck auf einer Maske gibt die geteilt werden können es sind im Grunde Monolithen auf wafer gedruckte interconnect um genau zu sein.
Das hat zur folge das nvidia mehr auslese bei den chips hat also weniger Abfall aber auch das es weniger salvage chips für kleinere Modelle da sind. Preislich ist man dafür lukrativ
Folglich wird es knapp bei den Massen sku wie der rtxx60 Klasse und damit steigt der preis was nvidia Absicht ist.
Ziel sind dgpu ab 500$ anfangen.
Das macht der Markt nicht mit.
Nun da für den kleinen chip gb205 (245mm² 45$ chip) 3 sku kommen wird auch klar warum
Ein gb205 hat 64sm 192bit und ein alu Si Verhältnis von 35-65%
Daraus wird
halber gb205=gb206
rtx5060 28sm 2,4ghz 12gb 96bit si 336gb/s pcie5 x4 400$
Ganzer gb205
rtx5060ti 40sm 2,4ghz 10gb 160bit 560gb/s pcie5 x8 450$
rtx5070 50sm 2,4ghz 12gb 192bit 672gb/s 12gb pcie5 x8 550$
Das gleiche passiert mit dem gb202 (783mm² 275$ chip) obwohl da 4 sku geben wird
Halber gb202=gb203
rtx5070ti 70sm 2,8ghz 14gb 224bit pcie5 x8 800$
rtx5080 80sm 2,8ghz 16gb 256bit pcie5 x8 1200$
ganzer gb202
rtx5090 144sm 2,8ghz 24gb 384bit pcie5 x16 1800$
rtx titan ai 160sm 2,6ghz 32gb 512bit pxie5 x16 3500$
Wer sich fragt wie man das in den preisen schaffen will da doch weniger chips herauskommen als wenn man dediziert je chip ne Maske hat, nun der n4p node kostet grob 11000$ der Samsung sf4x node den man für den gb205 nutzen wird kostet grob 8000$ etwa dasselbe was mal der sf8/10nm nvidia 8n node gekostet hat
zumal samsung keine Kapazitäten Engpass hat wie tsmc
tsmc n5 (4n) 15000$ der Aktuelle genutzte node)
gddr7 ist der Preistreiber hier den 16gbit dürften bei 10$ liegen die 24gbit ab q2 2025 dürften den 12$ preis erreichen ab q4 2025
Wo langsam der refresh kommt als rtx60 gen
Dann gb305 =gb306 auf sf3 node 225mm² (40%-60%)
rtx6060 32sm 12gb 400$
voller gb305
rtx6060ti 50sm 15gb 450$
rtx6070 60sm 18gb 550$
halber gb302=303 tsmc n3 node 630mm² (35-65%)
rtx6070ti 76sm 21gb 800$
rtx6080 90sm 24gb 1100$
ganzer gb302
rtx6090 160sm 28gb/448bit 1700$
rtx titan b 180sm 36gb 4000$
Zwar kann ich komplett danebenliegen aber bisher spricht alles dafür das es so kommt.
Die ps5 pro bestimmt die preise ab q1 2025
Die perf steigt beim 450$ Bereich maximal um +30% genau das was die Konsole auch hat etwa 23tf mit effektiv 12gb vram.
nvidia wird noch mehr Fantasie zahlen angeben mit 256alu per sm und effektiv software features anpreisen mit doppelte fps vs Vorgänger was dann maxed real +20-40% wenn die cpu nicht limitiert,
Der Nachfolger wird ein dreifach druck mit cow design wo das si und pcie unter dem chip liegt dann steigen die sm extrem an mein verdacht geht auf 3*128sm auf n2
gr202 400mm² auf nenn 420mm² Si
Der gr203 wird den chip auf 2/3
Und der Rest als gr205
folglich nur noch ein chip in Fertigung und davon 5 sku
rtx7060ti gr205 100sm 2,4ghz gddr7 36gbps 256bit 1,1pb/s
rtx7070 gr203 200sm 2,4ghz gddr7 36gbps 320bit 1,4pb/s
rtx7070ti gr203 240sm 2,4ghz gddr7 36gbps 384bit 1,7pb/s
rtx7080 gr202 320sm 2,4ghz 36gbps 448bit 2,0pb/s
rtx7090 gr202 360sm 2,2ghz 36gbps 512bit 2,3pb/s
Darauf verdoppeln sich die alu per sm auf reale 256fp32
rtx80 gen auch nur ein chip mit dann dreifach druck 3*128sm*256alu
wovon drei chips abgeleitet werden
gx204 gx203 gx202
was dann die
rtx8080
rtx8090
rtx titan
Dann hat nvidia nur noch high end ab 2030
Warum sich nvidia aus dem entry und mid class Verabschiedet liegt an der fehlenden cpu intel wird bis dahin entweder pleite sein oder aufgekauft worden sein
Die folgen sind verheerend amd wird Markthirsch nvidia hoffentlich mit eigener x86 Lizenz mit ner eigene Komplettlösung geben.
Der diy markt wird deutlich geschrumpft auf high end only.
Das kann abgewendet werden wenn intel ne neue arch hat. nur kommt die erst 2030 danach dürfte nvidia wieder in mid class was bringen ab 2032 als rtx90 gen
Was dann ab der rtx9070 losgeht ab 800$
Der Entscheidende Moment ist Okt dieses Jahres (2024) mit arrow lake (neuer core Ableger und der letzte dieser Art)
Wenn intel dem design flaw nicht gefixt hat wovon auszugehen ist braucht es zwingend ne neue Arch
Aktuell degeneriert jede ci13 14th gen ab 1,2v vcore
Die optimale spannung wäre etwa 1,05v und maxed 1,1v das ist gpu Niveau
Der Fehler ist nicht in den Schaltzeiten sondern beim Ringbus an sich und dessen physischen Ausbau da analog
Daher lässt sich schnell fixen ist aber keine Lösung da dass Konzept am ende ist.
Mit glück hat man bei arrow lake das angepasst bei der Maske. (etwa 5% mehr Fläche) ich ahne aber das es nicht so ist.
Es wäre möglich das nvidia eigene x86 pc anbieten wird mit ner ptx gpu und das wird sehr wahrscheinlich wenn intel nicht das ruder herumreist.
Das mal der DIY markt komplett verschwinden könnte hätte ich nie gedacht.
Es geistert das Gerücht rum das rubin mcm sein soll das stimmt nicht so ganz den rtx60 kommt schon 2026 und wird ein blackwell refresh da blackwell das design schon mcm ist da zwei chips auf eine Maske lediglich das cow wird mit rubin als rtx70 geben das kann es nur dann geben da tsmc erst ab 2027 n2 in Massen produziert und cow Kapazitäten frei hat.
Samsung hat kein cow und andere ebenso nicht. Ein planares system wird nicht gehen und zu eine sehr ineffizienten design werden .
Dagegen spricht auch das bisherige design Ansatz von nvidia.
Es gibt zwar ein Bild mit getrennten i/o alu und hbm aber das bezieht sich auf die server Komplettsysteme und das I/o ist die Verbindung zu multigpu also nicht der chip selbst, dieser hat ein eigenes Si.
chips zu stapeln ist die einzige effektive Lösung für die Zukunft. Das reduziert den Takt um 25% aber man kann mehr alu auf die chips setzen und ein deutlich breiteres SI nutzen wie in diesen Vorschlag auch zu sehen ist.
Wenn man den Takt Weg gehen will hat man am ende in alu Si Verhältnis von 20%-80%
Das wird amd sowie nvidia nicht tun.
Wie groß der Taktverlust am ende wird ist offen pessimistisch gehe ich von 25% aus was die Einführung des gestapelten chips erst ab n2 node Sinn macht.
cow = chip on wafer tsmc mcm Technologie
tf = teraflops (auch als tflops abgekürzt)
pb/s =petabytes pro sec
Maßstäbe
ps4 grob 2,0tf 8gb 6gb verwendbar 2013-2018
ps4 pro grob 4,0tf 8gb 7gb verwendbar 2017-2022
ps5 10,0tf 16gb 12gb verwendbar 2020-2025
ps5 pro 23,0tf 16gb 13gb verwendbar 2024-2027
Das hat nvidia ganz brav an die Händler ausgesessen
rtx40 verkauft sich sehr mies bis schlecht nur sku ab 12gb vram zögerlich und 16gb erst ordentlich darum fallen die preise nur bedingt bei diesen sku eigentlich müsste nvidia drastisch die preise senken mt einer Aktion bei den aib von min 20% je sku
Dann gehen die lager ganz schnell leer.
ne 8gb sku ist htpc und als verbesserte Videobeschleuniger zu sehen 2024.
Demzufolge müsste der preis bei etwa 200€/180$ an anfangen bis 300€/270$ im maximum.
ne 12gb sku ab 350$ und ne 16gb sku ab 450$
Die folgende gen wird erst ab dem refresh 2026 (gb302 305) gute sku haben
Sicher ist das es ein dual druck auf einer Maske gibt die geteilt werden können es sind im Grunde Monolithen auf wafer gedruckte interconnect um genau zu sein.
Das hat zur folge das nvidia mehr auslese bei den chips hat also weniger Abfall aber auch das es weniger salvage chips für kleinere Modelle da sind. Preislich ist man dafür lukrativ
Folglich wird es knapp bei den Massen sku wie der rtxx60 Klasse und damit steigt der preis was nvidia Absicht ist.
Ziel sind dgpu ab 500$ anfangen.
Das macht der Markt nicht mit.
Nun da für den kleinen chip gb205 (245mm² 45$ chip) 3 sku kommen wird auch klar warum
Ein gb205 hat 64sm 192bit und ein alu Si Verhältnis von 35-65%
Daraus wird
halber gb205=gb206
rtx5060 28sm 2,4ghz 12gb 96bit si 336gb/s pcie5 x4 400$
Ganzer gb205
rtx5060ti 40sm 2,4ghz 10gb 160bit 560gb/s pcie5 x8 450$
rtx5070 50sm 2,4ghz 12gb 192bit 672gb/s 12gb pcie5 x8 550$
Das gleiche passiert mit dem gb202 (783mm² 275$ chip) obwohl da 4 sku geben wird
Halber gb202=gb203
rtx5070ti 70sm 2,8ghz 14gb 224bit pcie5 x8 800$
rtx5080 80sm 2,8ghz 16gb 256bit pcie5 x8 1200$
ganzer gb202
rtx5090 144sm 2,8ghz 24gb 384bit pcie5 x16 1800$
rtx titan ai 160sm 2,6ghz 32gb 512bit pxie5 x16 3500$
Wer sich fragt wie man das in den preisen schaffen will da doch weniger chips herauskommen als wenn man dediziert je chip ne Maske hat, nun der n4p node kostet grob 11000$ der Samsung sf4x node den man für den gb205 nutzen wird kostet grob 8000$ etwa dasselbe was mal der sf8/10nm nvidia 8n node gekostet hat
zumal samsung keine Kapazitäten Engpass hat wie tsmc
tsmc n5 (4n) 15000$ der Aktuelle genutzte node)
gddr7 ist der Preistreiber hier den 16gbit dürften bei 10$ liegen die 24gbit ab q2 2025 dürften den 12$ preis erreichen ab q4 2025
Wo langsam der refresh kommt als rtx60 gen
Dann gb305 =gb306 auf sf3 node 225mm² (40%-60%)
rtx6060 32sm 12gb 400$
voller gb305
rtx6060ti 50sm 15gb 450$
rtx6070 60sm 18gb 550$
halber gb302=303 tsmc n3 node 630mm² (35-65%)
rtx6070ti 76sm 21gb 800$
rtx6080 90sm 24gb 1100$
ganzer gb302
rtx6090 160sm 28gb/448bit 1700$
rtx titan b 180sm 36gb 4000$
Zwar kann ich komplett danebenliegen aber bisher spricht alles dafür das es so kommt.
Die ps5 pro bestimmt die preise ab q1 2025
Die perf steigt beim 450$ Bereich maximal um +30% genau das was die Konsole auch hat etwa 23tf mit effektiv 12gb vram.
nvidia wird noch mehr Fantasie zahlen angeben mit 256alu per sm und effektiv software features anpreisen mit doppelte fps vs Vorgänger was dann maxed real +20-40% wenn die cpu nicht limitiert,
Der Nachfolger wird ein dreifach druck mit cow design wo das si und pcie unter dem chip liegt dann steigen die sm extrem an mein verdacht geht auf 3*128sm auf n2
gr202 400mm² auf nenn 420mm² Si
Der gr203 wird den chip auf 2/3
Und der Rest als gr205
folglich nur noch ein chip in Fertigung und davon 5 sku
rtx7060ti gr205 100sm 2,4ghz gddr7 36gbps 256bit 1,1pb/s
rtx7070 gr203 200sm 2,4ghz gddr7 36gbps 320bit 1,4pb/s
rtx7070ti gr203 240sm 2,4ghz gddr7 36gbps 384bit 1,7pb/s
rtx7080 gr202 320sm 2,4ghz 36gbps 448bit 2,0pb/s
rtx7090 gr202 360sm 2,2ghz 36gbps 512bit 2,3pb/s
Darauf verdoppeln sich die alu per sm auf reale 256fp32
rtx80 gen auch nur ein chip mit dann dreifach druck 3*128sm*256alu
wovon drei chips abgeleitet werden
gx204 gx203 gx202
was dann die
rtx8080
rtx8090
rtx titan
Dann hat nvidia nur noch high end ab 2030
Warum sich nvidia aus dem entry und mid class Verabschiedet liegt an der fehlenden cpu intel wird bis dahin entweder pleite sein oder aufgekauft worden sein
Die folgen sind verheerend amd wird Markthirsch nvidia hoffentlich mit eigener x86 Lizenz mit ner eigene Komplettlösung geben.
Der diy markt wird deutlich geschrumpft auf high end only.
Das kann abgewendet werden wenn intel ne neue arch hat. nur kommt die erst 2030 danach dürfte nvidia wieder in mid class was bringen ab 2032 als rtx90 gen
Was dann ab der rtx9070 losgeht ab 800$
Der Entscheidende Moment ist Okt dieses Jahres (2024) mit arrow lake (neuer core Ableger und der letzte dieser Art)
Wenn intel dem design flaw nicht gefixt hat wovon auszugehen ist braucht es zwingend ne neue Arch
Aktuell degeneriert jede ci13 14th gen ab 1,2v vcore
Die optimale spannung wäre etwa 1,05v und maxed 1,1v das ist gpu Niveau
Der Fehler ist nicht in den Schaltzeiten sondern beim Ringbus an sich und dessen physischen Ausbau da analog
Daher lässt sich schnell fixen ist aber keine Lösung da dass Konzept am ende ist.
Mit glück hat man bei arrow lake das angepasst bei der Maske. (etwa 5% mehr Fläche) ich ahne aber das es nicht so ist.
Es wäre möglich das nvidia eigene x86 pc anbieten wird mit ner ptx gpu und das wird sehr wahrscheinlich wenn intel nicht das ruder herumreist.
Das mal der DIY markt komplett verschwinden könnte hätte ich nie gedacht.
Es geistert das Gerücht rum das rubin mcm sein soll das stimmt nicht so ganz den rtx60 kommt schon 2026 und wird ein blackwell refresh da blackwell das design schon mcm ist da zwei chips auf eine Maske lediglich das cow wird mit rubin als rtx70 geben das kann es nur dann geben da tsmc erst ab 2027 n2 in Massen produziert und cow Kapazitäten frei hat.
Samsung hat kein cow und andere ebenso nicht. Ein planares system wird nicht gehen und zu eine sehr ineffizienten design werden .
Dagegen spricht auch das bisherige design Ansatz von nvidia.
Es gibt zwar ein Bild mit getrennten i/o alu und hbm aber das bezieht sich auf die server Komplettsysteme und das I/o ist die Verbindung zu multigpu also nicht der chip selbst, dieser hat ein eigenes Si.
chips zu stapeln ist die einzige effektive Lösung für die Zukunft. Das reduziert den Takt um 25% aber man kann mehr alu auf die chips setzen und ein deutlich breiteres SI nutzen wie in diesen Vorschlag auch zu sehen ist.
Wenn man den Takt Weg gehen will hat man am ende in alu Si Verhältnis von 20%-80%
Das wird amd sowie nvidia nicht tun.
Wie groß der Taktverlust am ende wird ist offen pessimistisch gehe ich von 25% aus was die Einführung des gestapelten chips erst ab n2 node Sinn macht.
cow = chip on wafer tsmc mcm Technologie
tf = teraflops (auch als tflops abgekürzt)
pb/s =petabytes pro sec
Maßstäbe
ps4 grob 2,0tf 8gb 6gb verwendbar 2013-2018
ps4 pro grob 4,0tf 8gb 7gb verwendbar 2017-2022
ps5 10,0tf 16gb 12gb verwendbar 2020-2025
ps5 pro 23,0tf 16gb 13gb verwendbar 2024-2027