News Geforce RTX 5000 ("Blackwell"): Gerüchte zu Nvidias Next-Gen-Grafikkarten entsprechend eingeordnet

Lustig wie die Daten einfach auf Nvidia gemünzt werden, aber hauptsache AMD immer abwürden.
Sorry PCGH, aber ihr solltet euch endlich als Nvidia Fanboys outen!.


Hier der Link zu diesen Beitrag auf AMD RX 8900 XTX Grafikkarte

Update, ok war wohl ein schnell Schuss. :huh: Trotzdem sehr verwirrend.
 
Zuletzt bearbeitet von einem Moderator:
Lustig wie die Daten einfach auf Nvidia gemünzt werden, aber hauptsache AMD immer abwürden.
Sorry PCGH, aber ihr solltet euch endlich als Nvidia Fanboys outen!.

Hier der Link zu diesen Beitrag auf AMD RX 8900 XTX Grafikkarte

Grüße
Lanto
Mal als Tipp, guck mal auf den Autor der beiden Artikel.
 
Dumme Frage:
wie viele der 5 Chips werden alleine für die 5090 und 5080 verbraten?
Eigentlich rechne ich schon fast mit einer 5090 32GB, 5090 24GB, 5080 20GB, 5080 16GB, 5070 12GB.
Unbrauchbare Chips letzterer kann man ja noch als 500 Euro 5060 verscherbeln.
Das wäre eine konsequente Fortführung der NVidia Strategie der Gewinnmaximierung und Kundenirritation.

"Auch die effektive Speicherbandbreite würde von dem schnellen GDDR7-Speicher mit bis zu 36 GiBit/s deutlich profitieren"

Im Umkehrschluss bedeutet das für NVidia, dass die - wenn die an ihre eigenen Aussagen tatsächlich glauben sollten - ihre nächsten Karten mit noch weniger Speicher und noch schlechterer Speicheranbindung auf den Markt bringen könnten, weil der eine oder anderen Megabyte an Cache gleicht bei denen ja auch alles wieder aus.
Ich freue mich schon auf eine 5060 8GB mit PCI-E 5.0x4. Wuahahahha ;-P
 
Da 24gbit chip drauf kommen sind 32gb nicht möglich wenn wären es 36gb (384bit) wovon aber nicht auszugehen ist den ein 320bit Si oder nur 24gb mit 256bit ist sehr wahrscheinlich
Der gb102 mit 180sm wird wohl zu teuer da dieser etwa 830mm² misst
Die letzte Angabe war mal 630mm² aber da kein chip genannt wurde sondern als rtx5090 beschrieben wurde nehme ich an das es der gb103 ist.

Die gründe warum man nicht die sm auf weniger als 64 +64 schafft
Nun die Dxr Leistung der RT cores wird nicht ausgenutzt darum der vergrößerter L2 und sar was die Wartezyklen den rt core beschäftigen
Würde man mehr rt core einsetzen würde diese noch länger warten folglich braucht es mehr shader statt RT core
Daher machen 18sm per gpc 96fp32 per sm und zusätzlich 64 hybrid int32 Sinn
Nvidia wird das als 160 fp32 per sm bewerben und mit den sku die ich genannt habe
Ob das konkurrenzfähig ist sei mal dahingestellt

Amd rdna4 gibt es nur zwei chips einmal in n3 mcm quasi fixed rdna3 mit 60cu
und einmal Monolithen portiert auf n4 mit 40cu
beide design werden das cache problem gelöst haben was den Takt auf 3,6ghz und 4,0gh prügelt
Womit 60cu der rtx5070 anhand meines bsp 36tf gleichzieht bei eine preis Bereich um die 800€ mit 18gb vram (192bitr si)
Dann der kleinen 40cu mit 3,6ghz dann gleichzieht mit der rtx5060 die noch 20tf schafft und das bei etwa 400€
Da beide auf 24gbit setzen wird dann ein 128bit mit 12gb sein

Amd low end wird somit min 400€ kosten
Alles was weniger als 20tf hat wird als apu geben mit strix point und später strix halo 40cu

Da amd quasi das Gerücht besteht das man high end abgesägt hat. Ist das glaubhaft eine sku in n3 und eine in n4x zu bringen.

Wenn amd ganz mutig ist fixed man rdna3 arch und baut dann ein klein wenig größeren chip auf n6 und käme mit Verbesserer alu Auslastung auf dieselben werte mit weniger Takt.
Etwa 40*3,0*2,6*64=19,9tf
Und das bei 339€ rx8600 32cu und 379€ rx86000xt 40cu
Die Effizienz wäre schlecht also kaum besser als derzeit, aber man wäre Konkurrenzfähig vs intel battlemage und nvidia rtx4060 super (34sm) die ab 479€ 16gb geben wird
Das aber ist ein großes Wenn da das problem der alu Auslastung derzeit im design liegt. Der cache fixed sorgt nur für höheren Takt.
Da rdna3,5 am Desktop cancel ist sehe ich es kommen das man den port auf n4x macht um noch konkurrenzfähig zu bleiben bei 20tf bei 400€ anstatt nur 16tf bei 330€ Festzusitzen und sogar unter wert verkaufen zu müssen.

Alles hängt vom design der simd32 Einheit die Prinzipiell zeit braucht damit diese von daten gefüttert werden kann.
Aktuell ist das etwa 17% bei maxed 2,5ghz und das bei nen 5nm node in 6nm sind es nur noch 1,8ghz wo das greift.
Folglich sind rdna2 und rdna3 bei gleiche alu und auch Takt auch gleich schnell. Abhilfe ist deutlich erhöhte Spannungen beim cache.
Das hat aber amd gesperrt

mal sehe wie rx7800xt performt nächste Woche.
 
ich habe mal meine idee mit möglichen sku überdacht also den
gb103 als rtx5090
630mm² 142sm aktiv 85tf 30gb gddr7 36gbps = +32% vs rtx4090 gut möglich das dass ne titan wird 2500€
gleicher Die andere sku rtx5080ti 128sm 76,8tf ab 1299€ realistisch aber eher 1599€ [...]

meine Formeln sind genau nvidia gibt fp16 an und ja das sind 91tf bei der rtx4090

You made my day ... zwar nicht beabsichtigt, weil das wieder mal vollkommener Unsinn von dir ist, aber einen Lacher ist es trotzdem wert. :-D
Deine vermeintlichen Formeln entstammen wahrscheinlich einem Ü-Ei und deine Werte sind vollkommen falsch.
Du meinst allen Ernstes ein 630 mm2-Chip soll der GB203 sein? Was wird dann der GB202, ein 720 mm2-Chip bei dem der Yield dermaßen schlecht wird, dass man den nur noch im professionellen Segment verkaufen kann? Damit kann man dir jedwedes wirtschaftliches Verständnis bereits grundlegend absprechen.
Darüber hinaus hat die RTX 4090 bereits 83 TFlops FP32 (und FP16) Leistung mit nur 128 SMs und niedrigerem Takt. Was sollen oben deine unsinnigen "85tf"? Nicht minder interessant, wie "85tf" ggü. 83 TFlops einer +32%igen Leistungssteigerung entsprechen sollen. Rechnest du hier mit Fantasiewerten?
Und für das, was für diese Klientel hier relevant ist, nämlich FPS-Zugewinne, kannst du per se mit keiner Formel irgendwas hochrechnen, da der NextGen ein massiver SM-Umbau (absehbar auch bzgl. des Backend) nachgesagt wird und solange man nicht weiß, was da wie umgebaut wird und mit welchen Effekten, lässt sich da rein gar nichts abschätzen außer vielleicht die absehbare Vermutung, dass es "schneller werden wird". Da kannst du mit noch so vielen vermeintlichen Formeln ums Eck kommen, die du dir irgendwie zusammengezimmert hast ;-)

*) Btw., der FP16-Wert von dir ist nicht weniger falsch. Die RTX 4090 liefert 83 TFlops FP16 Peak-Performance über die Shader/CUDA-Cores ab ... und, wenn man es genau wissen will, bestenfalls 330 TFlops FP16 mit einem FP16-Accumulate über die Tensor Cores (ohne Sparsity Feature) ... so viele Zahlenwerte und du schaffst es nicht einmal einen richtig wiederzugeben ...
 
Zuletzt bearbeitet:
Deswegen haben viele Jugendliche heutzutage auch eher Konsolen als Gaming PCs.
Oder daddeln aufm Handy;)

Ich bin in der glücklichen Lage mit der 4090 erstmal ausgesorgt zu haben. Wenn ich das WILL, komme ich mit der 5 Jahre hin (hab ich mit der GTX1080 auch geschafft).

Daher kann ich der Entwicklung ganz entspannt zusehen und wenn mir kommende Preise/Leistung nicht zusagen, dann wird eben nicht gekauft, die Regler bedient oder nur in WQHD gedaddelt. Mein Gott, es gibt wichtigeres im Leben.

Zudem fehlen mir seit längerem die Optikkracher/Augenöffner und Spiele mit Seele/Herzblut der Entwickler (gut, die stehn oft unter dem Druck der Publisher).

PS: mal sehn was in Zukunft die UE5 so kann...

Gruß
 
Zuletzt bearbeitet:
Der unterschied ist fp16 halbe Genauigkeit wird primär in cuda verwendet fp32 traditionell shader Einfache Genauigkeit in directx verwendet
Halbe Genauigkeit kann man auch in dx verwenden ist aber unsauber und erzeugt Bildfehler
Das geht gut bei Oberfläche die flach sind und in einer Farbe.
Die Grafik Einstellung heißt variable rate shading und ist ein vulkan dx12 exklusives feature dann wird dieser Bereich in fp16 Berechnet was theoretisch die Leistung verdoppelt aber abhängig davon wieviel aus der Szene davon berechnet wird und genau da greifen die 64 hybrid kerne zu um genau zu sein die restlichen 32 int32 die nicht dediziert fp32 rechnen können.
ada ampere Sm Formel bleibt
1 rt core, 4 tensor core, 64fp32 , 32int32 nativ, 32int32/fp32 hybrid , 4tmu
64+16+8=88 fp32
Design Idee blackwell
96+16+8= 120fp32

Zu den hybrid 32 int32 teilt sich in 16 fp32 garantiert +8 fp32 per Treiber garantiert optional + 8 fp32 ist aber nicht die norm.
Maximal sind aktuell in ada design 96fp32 per sm drin gleiches gilt für ampere gpu

Die tensor Leistung ist ganz abzulehnen da diese auf algorhym basieren die nicht grafik ausgelegt sind Sondern in Datenauswertung darum sind die tensor cores nur für Videobearbeitung beim upscaling zu gebrauchen Sprich denoising in rt Bildern.
In spielen wird das derzeit gar nicht genutzt das dlss ist simples upscaler mit paar infos aus der dll die zuvor angepasst wurde. Quasi wird lediglich anti aliasing verbessert und das als größere Auflösung dargestellt.
Darum super sampling, Deep learning hat da rein gar nix zutun. Es arbeitet lediglich besser als die anderen auf taa basierende algos
Und ja die tensor cores rechnen derzeit nix. abseits in cuda
 
Zuletzt bearbeitet:
Der unterschied ist fp16 halbe Genauigkeit wird primär in cuda verwendet fp32 traditionell shader Einfache Genauigkeit in directx verwendet
Halbe Genauigkeit kann man auch in dx verwenden ist aber unsauber und erzeugt Bildfehler
Das geht gut bei Oberfläche die flach sind und in einer Farbe.
Die Grafik Einstellung heißt variable rate shading und ist ein vulkan dx12 exklusives feature dann wird dieser Bereich in fp16 Berechnet was theoretisch die Leistung verdoppelt aber abhängig davon wieviel aus der Szene davon berechnet wird und genau da greifen die 64 hybrid kerne zu um genau zu sein die restlichen 32 int32 die nicht dediziert fp32 rechnen können.
ada ampere Sm Formel bleibt
1 rt core, 4 tensor core, 64fp32 , 32int32 nativ, 32int32/fp32 hybrid , 4tmu
64+16+8=88 fp32
Design Idee blackwell
96+16+8= 120fp32

Zu den hybrid 32 int32 teilt sich in 16 fp32 garantiert +8 fp32 per Treiber garantiert optional + 8 fp32 ist aber nicht die norm.
Maximal sind aktuell in ada design 96fp32 per sm drin gleiches gilt für ampere gpu
Hast du was getrunken oder wo kommt dieser Zahlensalat her? Das ist so falsch gerechnet, dass es schon zum Himmel schreit oder ist das deine unbeholfene Art hier Fake-News zu verbreiten?
Was sollen diese "88 fp32" sein und der Rechenweg dahin ist vollkommen absurd. Du hast absolut keinen Plan was du da schreibst, benutzt du Gpt4 für deine Textgenerierung? Wahrscheinlich eher nicht, denn in dem Falle würde der ausgespuckte Text noch mehr Sinn ergeben als das was du hier postest.

Nur mal zur Klarstellung: Eine aktuelle SM von nVidia erreicht im Peak 256 Flops pro Takt. Das hat mal gar nichts mit deinem Wert zu tun und der komplett deiner mathematisch unbedarften Fantasie entsprungene Rechneweg zeigt, dass die zahlentechnische Nähe der "88" zu den tatsächlichen 83 TFlops offensichtlich nicht mehr als Zufall ist.

Und was Blackwell auch immer werden wird, weiß man aktuell noch nicht, da man nichts zur Umstrukturierung weiß. Da sind deine TFlops-Rechnungen schon grundlegend sinnbefreit (völlig unabhängig davon, dass sie falsch sind), von der Relevanz für Gamer mal ganz zu schweigen ...
 
Know How seitens Microsoft du sprichst?
Geld. Berge von Geld. Geld kann alles bewegen. MS hat ein großes interesse daran, dass die GPUs von AMD endlich mal nicht gammeln, um die Xbox zu puschen an Leistung. MS würde eine große Stange Geld in die Hand nehmen, die GPU Struktur von Grund auf neu zu bauen, alle möglichen Fachleute einkaufen usw. Es kann nur besser werden in anderen Händen, die mehr Geld haben als AMD. Dazu kann MS dann auch die GPU perfekt auf Windows abstimmen, samt Treiber. Und Treiber sind immer noch das riesen Problem von AMD GPUs.
 
Zuletzt bearbeitet:
Am Ende ist doch klar, egal was die Karten können werden, Nvidia wird die Preise weiter anziehen. Die Macht des Kunden ist bei Nvidia gut sichtbar. Dazu fällt mir der Begriff "enabling" ein.
 
Zudem fehlen mir seit längerem die Optikkracher/Augenöffner und Spiele mit Seele/Herzblut der Entwickler (gut, die stehn oft unter dem Druck der Publisher).

PS: mal sehn was in Zukunft die UE5 so kann...

Gruß
Stimmt. So richtig optisch vom Hocker gehauen haben mich schon länger keine Spiele mehr.
 
Hier sind richtige Mathematiker unterwegs. Vllt mal bei Nvidia oder AMD nach einem Job anfragen. ?
Eins steht schon für die next Gen fest. Es wird teurer. Musste dazu nichtmal eine Formel anwenden.
 
Jaja jede gen das gleiche mit diesen extrem überzogenen "übertrifft um xxx%" Hier wurde mal wieder eine 0 zuviel dazu geschummelt...
 
Ich würde sagen alle Angaben zur Speicheranbindung müssen halbiert werden - wir kennen doch Nvidia ?
 
Zuletzt bearbeitet:
Zurück