News Geforce RTX 5000 ("Blackwell"): Gerüchte zu Nvidias Next-Gen-Grafikkarten entsprechend eingeordnet

SFT-GSG · 13. August 2023

Snowhack schrieb:
Ich würde sagen alle Angaben zur Speicheranbindung müssen halbiert werden - wir kennen doch Nvidia ?

Sicher doch. Gibt ja bestimmt auch die 8GB FanEdition.... :banane:

Cernan68 · 13. August 2023

Kell-Conerem schrieb:
Jaja jede gen das gleiche mit diesen extrem überzogenen "übertrifft um xxx%" Hier wurde mal wieder eine 0 zuviel dazu geschummelt...

Da steckt System dahinter, das Gleiche wurde auch von einer 4090 behauptet, als die ersten Leaks kamen und eine 3090 State of the Art war. Sicher, die 4090 ist ein Brett, aber real war das dann doch sehr deutlich weniger Mehrleistung. Naja, der Hype muss ja so langsam aufgebaut werden, damit wir auch schön alle brav neue Hardware kaufen.

Eigentlich wollte ich ja Top of the Line bleiben, aber PCIe 5.0 schreckt mich ab, da brauche ich dann fast alles neu. Vielleicht lasse ich die Generation ganz aus und arbeite mit meinem 5900x mit 4090 noch 4-5 Jahre. Aktuell habe ich ja noch kein einziges Game, dass meine 4090 bei UWQHD ins Schwitzen bringt.

Showstopper2403 · 14. August 2023

Prozessorarchitektur schrieb:
Das ich in yt davion nix gehört habe?

zuerst gb105 ist völlig neu
Die si Anbindungen an den chips dürften halbiert sein Si skaliert nicht beim shrink
144sm also das spricht klar fürn redesign aber das wird teuer.
gb102 10gpc je 18sm (180) je 160 alu effektiv 120fp32 per sm 384bit
gb103 8gpc (144sm) 256bit
gb104 6 gpc (108sm( 192bit
gb105 4gpc (72sm) 128bit
gb106 2gpc (36sm) 96bt
gb107 1 gpc (18sm 64bit

Wenn das so kommt dürfte die idee mt 96fp32 +64 int32 gesetzt sein mit reduzierten pcie lanes
das spsart etwa 5% chipfläche dazu reduziertes si das spart je viertel weniger von aktuell 20% nur noch 15%

Annahme Letzte Gerücht
gb103 630mm²85tf 142sm bsp rtx5090
gb104 448mm² 57tf 96sm bsp rtx5080
gb105 299mm² 36tf 60sm bso rtx5070
gb106 149mm² 20,4tf 34sm bsp rtx5060
gb107 74mm² 10,8tf 18sm bsp rtx5050

Alles auf 2,5ghz mehr Takt erwarte ich nicht bei einen so densen design.
Ableitung von hopper arch und Fertigungsvorteile von n3 node.

Ob das sich noch lohnt bei amd apu mt 40cu ist fraglich womit ich nicht mit einen gb107 rechne
Die amd apu schafft mit nur 45w 17tf Sofern das mit den 3,0ghz stimmt. Und ob diese apu üebrhaupt am desktop kommt oder ein soc für sony ist unklar.

Schon wieder deine absurden möchtegern Hochrechnungen....

Die 5090 bekommt wenn dann wieder den 102er Chip...

Und weniger tankt als vorher ja ne is klar....

Such dir mal ein richtiges Hobby...

Showstopper2403 · 14. August 2023

Prozessorarchitektur schrieb:
meine Formeln sind genau nvidia gibt fp16 an und ja das sind 91tf bei der rtx4090

Bisher hat noch nicht eine Ach Do tolle Hochrechnung von dir gepasst also lass es lieber...
Und Spam hier nicht rum

TauroBondani · 14. August 2023

Ich muss mich halt in Zukunft entscheiden:
Neues Auto oder Grafikkarte :ugly:

DaEins · 14. August 2023

Jedes Jahr im Wechsel. ist doch praktisch.

TiH8 · 14. August 2023

Incredible Alk schrieb:
Tja - ich habe lange gewartet mit meiner 2080er.

Nein, du hast genau eine Generation ausgelassen

Incredible Alk · 14. August 2023

TiH8 schrieb:
Nein, du hast genau eine Generation ausgelassen

Inwiefern hat "lange" etwas mit "Generationszahl" zu tun?
Ich hab Ende 2018 ne RTX2080 gekauft und Anfang 2023 ne RTX4080. Das ist sehr "lange" - denn die 20 Jahre davor hat keine meiner Grafikkarten auch nur 2 Jahre Nutzungszeit erlebt - die 2080 dagegen ist 4 geworden.

TiH8 · 14. August 2023

Incredible Alk schrieb:
Inwiefern hat "lange" etwas mit "Generationszahl" zu tun?
Ich hab Ende 2018 ne RTX2080 gekauft und Anfang 2023 ne RTX4080. Das ist sehr "lange" - denn die 20 Jahre davor hat keine meiner Grafikkarten auch nur 2 Jahre Nutzungszeit erlebt - die 2080 dagegen ist 4 geworden.

Also bei mir im Freundeskreis ist bis auf 1 Person noch niemand über eine GTX 1070 hinaus...daher finde ich 4 Jahre eher normal als "lange"

Prozessorarchitektur · 14. August 2023

Nun wie komme ich auf meine zahlen und erklärungen
Erfunden ist davon nix viel angenommen stimmt aber die basis sind die nvidia whtiepaper und die muss man leider querlesen
Alles fängt mit tesla g80 (geforce 8000 /9000 gtx200) an von 2006.
Die basis wie die Architektur funktioniert das hat sich seitdem nicht geändert nur das wie wurde immer angepasst.
Basis ist eine fp32 Architektur die Zusatz Einheiten mit int32 fp16 und doppelte Präzession fp64 kann
Angefangen hat das mit der sm struktur
8 fp32 +8 int32+ 2 fpu tmu
Diese wurden in mehreren tpc (2 sm) an die rop gebunden .
Die tmu und rop laufen mit coreclock
Die alu allerdings in doppelter coreclock
Die Formel ist (alu*2+ fpu*4)* gpu Takt= glops zu damaliger zeit.
Abgekürzt ist das alu *3 *Gpu Takt*2 = gflops

Ursache dafür die fpu kann 4 fp32 aufgaben berechnen und hat dedizierte Datenpfade dafür und da das Verhältnis 1-4 ist wird daraus eben mal 3
An fermi hat nvidia eine neue aufteilung der alu statt tpc sind es nun gpc die einen grafikengine entsprechen
Das ist nur für den sheduler der gpu interessant für uns nur als Formel relevant
fermi (gtx400/500)hatte
32 fp32 +32 int32 +4fpu
Formel daraus ist 32*sm count*2+4*sm count*4/1000 = tflops

Kepler (gtx600/700) hatte diese dann deutlich aufgebohrt mit 192 fp32+192int32 +32 fpu
Formel ist 192*sm count +32 fpu *4 *sm count/1000

Dann kam es zu eine drastischen Anpassung der Architektur

maxwell (gtx900) hat alle fpu deaktiviert für fp32 das sparte Strom seitdem sind auch fp64 Einheiten dediziert verbaut die deutlich weniger Strom benötigen.

Maxwell hat 128fp32 +128int32 *sm count *2 = tflops

pascal (gtx10)war quasi ein shrink der architektur auf 16nm und somit nur Takt Bonus
Hier gilt die Formel alu mal 2 mal Takt

Turing (rtx20) wurde wieder die Architektur grundlegen geändert
neu waren
rt core für bvh Strahlen die machen nix anderes als Strahlen zu berechnen
tensor core für denoising das wird bis heute nicht in Echtzeit genutzt

Und der Rest ist 1-.1 identisch das sm wurde auf 64 fp32+ 64 int32 reduziert diese sind aber hybrid und können bei direkten Befehl aus dx12 bzw vulkan fp32 berechnen
Das ergibt die Formel wie bei pascal mit Anmerkung das mehr perf raus kommen kann wenn dx12/vulkan verwendet wird.

Ampere (rtx30) hier wurde wieder die arch angepasst und das hybrid in hardware erzwungen

Es sind immer noch 64 fp32 + 64 int32 die in 32 hybrid und in 32 int32 dediziert aufgeteilt sind
16 von den hybrid rechnen immer fp32 in dx12 und vulkan dazu kommen 8-16 fp32 vom Treiber
8fp32 sind quasi garantiert selbst in dx9 dx10 dx11 opengl darum rechne ich immer 88*sm count mal Takt mal 2

ada ist ampere auf Steroiden da mehr Takt und eine anpassen des rt core und zwei neue software features
Einmal sar und einmal frame generation beides braucht zwingend cache der mit ada deutlich aufgebohrt wurde von 2mb auf 32mb
Cache lässt sich nicht schrinken daher war diese Änderung essentiell für sar da ansonsten die Idee dxr mittels out of order auszuführen nicht geht.

Gpu sind linear und sar funktioniert nur mit FG da min ein frame zeit braucht um die Renderaufgabe zu ordnen

Das warum ist klar man will mit FG und höheren Takt quasi kleinere chips teurer verkaufen. da die Herstellung von dichteren chips den Takt limitiert und die chipfläche nicht kleiner wird.
Mit aktuellen design könnte man in n3 noch 25% chipfläche sparen also wäre die sku nur bei Takt schneller sofern identische Ausbaustufen.
In n4x könnte man den Takt auf 3,1ghz prügeln und hätte nur leicht größere chips. Der wafer ist aber deutlich billiger.
In n3 wäre die chips sogar noch billiger da diese kleiner sind min 25% eher sogar 30% und man käme auf 3,2ghz Takt.

Wird nvidia die arch ändern? Möglich ist es, aber sie müssen es nicht

Erst in n2x mit deutlichen Takt plus (+25%) lohnt sich ein rebuild der Architektur
Die Dokumente verlinke ich mal da steht auch viel marketing Blödsinn dabei
Das ehrlichste ist noch das antike tesla Dokument
maxwel ~~gibt es sogar keins~~
pascal und turing gibt es aber ada und ampere nur die Profi Ableger die nur teilweise mit den gaming chips identisch sind sm Struktur ist aber leicht reduziert.
bsp in ga100 steht 64 fp64 +32 fp64 die sind in ga102 aber nur noch 24 fp64
das marketing Dokument ga102 habe ich mal auch verlinkt. Darin steht abe wie das mit den doppelten fp32 funktionieren soll. Was in ga100 Dokument nicht erwähnt wird. Ganz ehrlich ist das nicht aber beides zusammen gibt ein Bild wie .

tesla g80
Fermi gf100
Kepler gk110
Maxwell gm200
pascal gp100
turing tu 102
ampere ga100 ga102
Ada lovelace ad102

Das sind details

ne gpu kann aber auch am backend also rop limitieren sowie an der Bandbreite
Die variable sind die Spiele.

Incredible Alk · 14. August 2023

TiH8 schrieb:
Also bei mir im Freundeskreis ist bis auf 1 Person noch niemand über eine GTX 1070 hinaus...daher finde ich 4 Jahre eher normal als "lange"

Für "normale Leute" ist das auch völlig üblich. Die PCs die ich bei Bekannten ersetze haben eher Grafikkarten wie ne GTX960 oder R9 280 oder ähnliches drin... und das sind dann die schnellen. Letzte Woche gabs für jemanden nen Ersatz-PC der einen Core2Duo E6600 mit ner Radeon X1300 benutzt hat...

Aber für die Nerdfraktion hier ist das unüblich. Für mich sind 4 Jahre die gleiche GPU eine Ewigkeit - auch wenns heute lange nicht mehr so schlimm ist wie... als ich noch jung war :ugly:

PHuV · 14. August 2023

Incredible Alk schrieb:
Aber für die Nerdfraktion hier ist das unüblich. Für mich sind 4 Jahre die gleiche GPU eine Ewigkeit - auch wenns heute lange nicht mehr so schlimm ist wie... als ich noch jung war

Ich wechsle so alle 2 Jahre. Die längste Lücke hatte ich von GTX 580 (T-SLI) bis zur 980, und dann hatte ich sonst alle Titanen bis zur 2080TI, 3090, 4090... und alle 2 Jahre zu wechseln ist jetzt auch nicht besonders schlimm. Die alte Karte ging fast für die Häfte weg, und das wurde dann refinanziert mit der neuen GPU, dadurch war der Aufpreis immer erträglich.

Wie zuverlässig waren denn bisher die Prognosen von kopite7kimi? Hat das mal jemand rückwirkend evaluiert?

JoM79 · 14. August 2023

@Prozessorarchitektur
Warum lässt du dein wirres Geschreibsel nicht mal sein?
Dir wurde mittlerweile von so vielen Leuten, dass es teilweise böser Humbug ist.
Du versuchst dir irgendwas zurecht zu rechnen, um auf ein dir sinnvolles Ergebnis zu kommen.
Oder kurz:
Scheisx egal wie viel TF ne GPU hat, was zählt ist, was im Spiel an fps raus kommt.

Incredible Alk · 14. August 2023

PHuV schrieb:
Wie zuverlässig waren denn bisher die Prognosen von kopite7kimi? Hat das mal jemand rückwirkend evaluiert?

Wie bei allen anderen Leakern auch:
Sie machen drölfzig Voraussagen die zumindest technisch alle im möglichen Bereich sind, irgendeine davon trifft dann am Ende zu und dann "haben sies ja gesagt". Der olle Wahrsagertrick halt^^

Ich will nicht abstreiten, dass Leute wie er tatsächlich irgendwelche Kontakte in die Industrie haben aber dadurch werden ihre Leaks nicht irgendwie "sicher". Die raten genauso wie alle anderen ins Blaue rein und haben vielleicht ein paar "Leitplanken" mehr beim raten aber das wars auch schon.

Ich würde, ums wissenschaftlich zusagen, anzweifeln, ob die Menge an zutreffenden Gerüchten gegenüber der Menge an nicht zutreffenden Gerüchten von Kimi statistisch signifikant von "technisch versiertem raten" abweicht. ;-)

Prozessorarchitektur · 14. August 2023

Dachte ich an pcgh das es Um NERDS geht? Wenn nur fps das ziel sind dann sind es nur fanboys die ihre gpu vorne sehen wollen.
Klar kann man simpel einfach fps vergleichen was leider ein P/L vergleich fast unmöglich macht.
Dann reden wir hier um fanboys oder wie der Amerikaner sagt mindshare

ich habe selber ne gcn gpu arch da und auch mal vliw getestet und weis das solche fp64 und fp16 Anssätze vieles vom Treiber abhängt und es da wirklich nur fps vergleichen kann obwohl gcn relativ genau berechnet werden kann.
Da sieht man deutlich an intels fp64 Architektur (arc alchemist) da bringen Treiber bis zu 60% perf Zuwächse besonders in legacy apis

Darum geht es hier aber nicht simpel einfach die gpu schafft so viele fps bringt uns nicht weiter zumal das cpu limit komplett ignoriert wird. Bei nvidia gpu einzelner gpu gen oft der fall.

Blackwell sehe ich frühestens auf n2 node da bis dahin der Takt nicht passt
meine idee würde gut passen und den gb102 auf etwa 830mm² kommen mit 384bit si 36gb vram
Der Einwand das der wafer aber 18000$ kostet und ein chip dann 500$ ist ein release am desktop ausgeschlossen

Mit einen ada quasi shrink auf n3 wäre der chip nur 690mm² hätte 216sm und wäre gleichschnell wie 180sm mit 830mm²
ich ergänze meine Prognosen das bedeutet nicht das diese wahr sind aktuell deutet alles auf nen refresh der ada gen hin wenn neu design dürfte das ada design beibehalten werden und lediglich mehr Takt und gddr7 support geben.
etwa so
102 chip 160sm +-90tf nvidia Angabe 131tf 690mm² 18gpc 384bit 192rop 200$
103 chip 128sm +-80tf nvidia Angabe 116tf 440mm² 12gpc 256bit 128rop 140$
105 chip 84 sm +-47tf nvidia Angabe 68tf 310mm² 8gpc 192bt 64rop 1 90$
106 chip 60sm +-33tf nvidia Angabe 49tf 195mm² 6gpc 128bit 48rop 65$
107 chip 34sm +- 19tf Nvidia Angabe 27,8tf 122mm² 4gpc 96bit 32 rop 42$

Das wäre alles verdoppelte Einheiten je chipklasse was aber sehr zweifelhaft klingt
Das in n4x zu porten wird das bringen
n4x bietet 13% mehr dense aber versagt beim preis ich tippe auf 12000-14000$ per wafer und die chips sind um min 15% größer
quasi verbessert sich das P/L für nvidia nicht einzig der Takt steigt um 11% vs n5
Ob nvidia eine misch imc baut damit gddr6 und gddr7 laufen wird spannend dann wären selbst der ad207 annahme oder gb107 wen man so will mit 4 gpc bei 3,1ghz mit 96bit 12gb gddr6 24gbps von samsung drin diese dürften bei etwa 8$ per 16gbit sein.

Nvidia baut die gpu nicht selber sie designen einen die dann von tsmc und den aib produziert wird die kette ist aktuell so das nvidia beim vram mitverdient daher ruhen ihre marge die aib nur das was nvidia denen zustellt der Handel hat immer etwa 20%

ich habe erklärt wieso ich auf die Formeln komme um eine Beratung was man kauft zu begründen hier im diesen thread geht es um die Architektur an sich und was diese in etwa leisten Könnte.
Auch nicht ohne eigenes Interesse. Und da kommt es stark auf P/L an.

Es gibt eben zwei Wege wie man blackwell designen kann
Den hopper weg der sehr gut in das AI Geschäft passt und einmal weiter so mit dem ada design

Nvidia hat nen problem ab 2026 in n2 node die Belichtung Größe halbiert sich erst gaa mit n2x wird abhilfe schaffen aber ein wärmedichte problem erzeugen was höheren Takt verhindert Ausweg ist ein neues design auf hopper basis kombiniert mit ada design Und das genau das habe ich beschrieben
Hopper erreicht mit 192 alu etwa 1,8ghz auf n5 node n3 wird das mit Anpassung der alu auf 2,5ghz steigen (Taktplus ist normal 15%) 1,8*1,15= 2,07ghz dann nen viertel weniger dichte also +25% statt 15% ergeben etwa 2,25ghz . Setze ich dann noch die tbp rauf ist man bei 2,5ghz

achja mein Design 96+64 =160 alu effektiv 120fp32 per sm das würde in high end mit 10 gpc dann 108tf ergeben oder eben nv Angabe 144tf
Ein gpc bei blackwel dürfte 18sm sein das wurde bekannt in März 2022 beim hack.
Lohnt sich das für nvidia?
Klar aber nur im datacenter Bereich

Derzeit wird die nächste gen als ada next bezeichnet und es ist noch sehr früh was den als consumer chips kommt Ein ada refresh würde Bwl Sicht sehr viel Sinn ergeben. Billiger, man hat die krone und Konkurrenz im high end ist nicht gegeben nächstes Jahr bis amd auf n2x rdna5 bringt und das sehe ich frühestens 2026.

Amd wird vom mcm mit mehreren gcd absehen da es sich nicht lösen lässt bis 3d chips umsetzbar werden und das kommt erst 2030 in n1,8
Nvidia hat das gleiche problem das die Monolithen auf 430mm² beschränkt sind und der Takt nur noch bis 4,0ghz gehen können bei gleicher architecture alu aufbau das wären maxed 216sm ada design oder 144sm bei blackwell design

Blackwell wird erst ab n2x auf 2,8ghz kommen. Amd bis dahin bei 4,5ghz. ada könnte 4,0ghz erreichen und genau das braucht nvidia bei den kleinen chips hohen Takt. Damit die kosten für die sku geringer bleiben.

So ne rtx5060 mit gddr6x 24gbps würde 19,1tf erreichen mit 12gb 384gb/s ab 299€ umsetzbar werden und das ist derselbe chip ad106 in n3.
Und das ist auch notwendig 2024 wo amd mit rx8600 dasselbe leistet Annahme von 32 cu etwa 3,6ghz für 279€
Egal wie ich es wende nen blackwell in neuen design ist unter 400€ fürn rtx5060 nicht umsetzbar bei nahezu gleicher Leistung dafür Takten die chips zu gering

Was das an Fps am ende bringt ist offen den die rop werden nicht steigen je chip was auch für das ada design spricht
Ich habe lieber ne ad106 trotz 8 pcie lane mit 48 rop als nen gb107 chip mit nur 32 rop

JoM79 · 14. August 2023

Wow, wieder viel Text für nix.
Und wenn es dir um "Nerds" geht, die merken was du für ein Blödsinn schreibst.
Jeder "Nerd", Redakteur etc rechnet das gleiche, nur du nicht.
Schon mal dran gedacht, daß manchmal die Mehrheit doch Recht hat?

RX6800XT · 14. August 2023

Was hat das überhaupt für einen Sinn, über Grakas zu spekulieren die noch voraussichtlich bis 2025 brauchen. Wie oft wurden Gerüchte 1 Tag vor Release auseinandergenommen. Da waren sie immer gut mit dem Geheim halten.

Auch diese Twitter und YouTube heinis nerven nur noch wegen jeder Kleinigkeit wird für klicks alles 5 mal nur anders verpackt rausgepfeffert. :nene:

Lasst euch einfach überraschen macht viel mehr spaß. Ausserdem wenn interessiert was 2025 ist. Wir sind im hier und jetzt??

BlubberLord · 15. August 2023

Incredible Alk schrieb:
[...]
Es wäre nicht so traurig wenns nicht wirklich immer so verhersagbar wäre. Es wpürde mich wirklich ehrlich freuen wenn an irgendeiner Front mal wieder was wirklich krasses passieren würde. Irgendeine Hardwareseitige Innovation (kein Software-/KI-Zeug) die wirklich massiv Performance bringt oder wenn AMD wirklich mal nach Ewigkeiten wioeder was auflegen könnte was schneller ist als NV. Aber leider ist beides absolut nicht zu erwarten.

- Hardwarebeschleunigung für KI-Operationen (gibt den Spieleherstellern diverse Optionen von Handlungsroutinen für NPCs bis zur dynamischen Welterstellung oder eben Frame Generation)
- Hardwarebeschleunigung für Raytracing-Operationen, massive Beschleunigung von Raytracing (auch für Produktivanwendungen)
- Schader Execution Reordering (in Hardware) gibt massive Beschleunigung bei komplexen Raytracing-Szenarien
- Verdoppelung bzw. flexible Aufteilung der Shaderkapazitäzen zwischen INT/FP32-Berechnungen
- größere "L3"-Caches (Leistungssprung für Standardgames)
- direktere Anbindung von Speicher/Cache (HBM, "stacked" Cache)
- laden von Assets ohne CPU-Overhead
- Asynchrone Shader-/Simulationsausführung (und alles, was DX12 macht um die CPU so stark zu entlasten)

Das sind einige Innovationen aus den letzten Jahren die zu massiven Performanceverbesserungen geführt haben.
Dass noch nicht alle Features in Spielen angekommen sind und nicht alle Spiele gut optimiert werden – unter optimaler Ausnutzung aller Features zur Leistungsverbesserung – liegt natürlich auch daran, dass "Innovationen" am Anfang meist nicht von jedem gekauft und angenommen werden und nicht auf jeder Plattform gleich kompatibel sind.
Die meisten Spiele sind der kleinste gemeinsame Nenner der am meisten verbreiteten Hardware/Plattformen. Machen wir uns nichts vor: Wenn die Hardwarehersteller nicht anfangs Einfluss nehmen ("Hilfestellung bei der Implementierung"), kommen neue Features nur sporadisch in Spielen vor.
Was in Richtung Pathtracing passiert ist einfach nur beeindruckend und nur durch eine Kombination aus Innovationen in Hardware und Software zu meistern.
Die RTX-Racer Demo war nach der Marbles-Demo von Ampère das erste Spiel mit viel Simulation bzw. Gameplay und komplexen Umgebungen komplett ohne Rasterisierung.
Wenn sich dieser Stand (~RTX 4090) an Hardwarebeschleunigung flächendeckend (hallo Konsolen!) durchgesetzt hat ist das schon DER Durchbruch in der Spiele-/Computergrafik!

Prozessorarchitektur · 15. August 2023

mal zitate vom post Blubberlord

- Hardwarebeschleunigung für KI-Operationen (gibt den Spieleherstellern diverse Optionen von Handlungsroutinen für NPCs bis zur dynamischen Welterstellung oder eben Frame Generation)

Das gibt es zukünftig auf mmo basierend spiele eventuell ist ein algorhytmus das antworten auf fragen bereitstellt. Das gibt es derzeit nicht lokal auf nen pc und erst recht nicht offline.

- Hardwarebeschleunigung für Raytracing-Operationen, massive Beschleunigung von Raytracing (auch für Produktivanwendungen)

Rt cores? Seit 2018 in gpu's in Betrieb

- Schader Execution Reordering (in Hardware) gibt massive Beschleunigung bei komplexen Raytracing-Szenarien

Das funktioniert nur wenn eine frame zusätzlich berechnet wird damit zeit verfügbar wird ob das überhaupt die rt cores beschleunigen kann ist ungewiss sicher ist das diese Funktion brach liegt ohne Einsatz von Frame Generation

- Verdoppelung bzw. flexible Aufteilung der Shaderkapazitäzen zwischen INT/FP32-Berechnungen

Das ist ein Märchen Seit jeher wird fp32 floating point in Grafik genutzt. int32 also Ganzzahl Berechnungen sind legacy und werden in modernen engines gar nicht mehr genutzt kommen aber noch vor, darum haben gpu's ja auch dedizierte int32 Einheiten.

- größere "L3"-Caches (Leistungssprung für Standardgames)

Gpu's haben kein L3 cache da dieser Sinnlos wäre. Gpu's sind lineare Prozesse und könne kein out of order wie cpu dies können.

- direktere Anbindung von Speicher/Cache (HBM, "stacked" Cache)

hier wirds Wild.
hbm ist wie gddr am Si verbunden die Leitungen sind aber kürzer bei hbm und direkt auf dem substrat der gpu rein technisch aber ist das nicht anders als mit gddr der unterschied ist nur das bei hbm problemlos das Si direkt verbunden werden kann und somit mit dem node shrink. Darum sind 512-8096bit möglich
Das andere mit cache betrifft eher amd Ansatz des inf cache das direkt an dem si hängt und somit daten vorlädt um die effektive Bandbreite zu vergrößern und nein das ist kein L3 cache

- laden von Assets ohne CPU-Overhead

Direct Storage Seit dx12 fl2 Standard allerdinsg wegen MS erst in win 11 22h2 eingeführt win 10 unklar.

- Asynchrone Shader-/Simulationsausführung (und alles, was DX12 macht um die CPU so stark zu entlasten)

Das ist die fp16 halbe Genauigkeit dx12 Funktion die es erlaubt die dedizierte int32 Einheit in fp16 zu rechnen bei nvidia Architektur. Bei amd ist das die Zusatz Einheit die dediziert verbaut sind (fp16). Bei nvidia sind es die int32 hybrid Einheiten.
Die normalen alu fp32 könne das nur entweder oder darum wird es auch nicht genutzt.
Diese Beschleunigung nennt sich Asyncron compute und muss explizit vom code des spiels angewendet werden in vulkan und dx12.
Nützlich bei spielen mit viel graden Flächen und gleicher Farbe ohne merklichen Texturen.
Der Nebeneffekt ist das dadurch Bandbreite und Vram gespart wird das reduziert allerdings die Bildqualität.

Die rtx racer demo war pathtracing und vor gerendert das war nicht live. Es gibt paar pathtracing demos und genau Zwei Spiele die pathtracing nutzen für Lighting Reflexion und GI
cyberpunk 2077 und the witcher 3 beide laufen mit ach und krach bei 9,2tf um die 15fps auf 1080p
Ohne upscaler geht da nix
in the witcher 3 nutze ich showcase Modus mit dlss perf 1080p und komme so gerade bei 45fps raus
Das entspricht 720p

Die nächsten Konsolen x series x pro und ps5 pro werden ungefähr 20tf an Leistung haben das steht sicher da ne apu existiert die das schaffen kann mit 40cu release q4 2024 und q2 2025.
Kann sein das es noch ne dedizierte gpu in Konsole einzieht aber unwahrscheinlich.
aber das wird so ausgehen neue spiele mit pro Unterstützung wird die Konsole wieder36cu mit dann 3,6ghz laufen also dann 19tf und in ps5 mode 2,3ghz mit 12,4tf
Das bringt ne leichte Beschleunigung in ps5 games da aber die Konsolen vrr unterstützen wird das die games nicht aus dem tritt bringen.

Das bedeutet im Umkehrschluss das die dxr Anforderungen nicht steigen werden bis ps6 kommt irgendwann 2027
Diese allerdings wird min 35tf an Anforderung haben und amd endlich verbesserte dedizierte rt cores haben.
Dann wird sich mit ue5 flächendeckend Pathtracing durchsetzen.

Allerdings in ue5 Technik lumen und nanite das kann man schon jetzt testen mit den mw forest ue5 demos. Und die hauen rein.
MWBurnedDeadForestBiome 10fps 1080p bei 9,2tf ohne tsr
ich weis das die Firma primär assets verkauft aber die Techniken werde für die demos genutzt

gerX7a · 15. August 2023

Prozessorarchitektur schrieb:
mal zitate vom post Blubberlord [...]

Himmel, A**** und Zwirn, schon wieder so eine Aneinanderreihung von fehlerhaften Aussagen bis hin zu handfesten Falschaussagen. Also ich weiß nicht, aber so langsam kann man dir da doch schon regelrecht einen gewissen Vorsatz unterstellen oder ziehst du derartige Aussage einfach aus deinem Zylinder ohne die auch nur irgendwie geprüft zu haben oder zumindest irgendwo gelesen zu haben? Wenigstens in letzterem Fall könntest du dann behaupten, dass die zitierte Quelle Murks geschrieben hat, aber so ...
Nur mal auszugsweise, weil mir das sonst wieder zu lang wird:

"Shader Execution Reordering": Völliger Unsinn, denn das funktioniert grundsätzlich, wenn es implementiert wird, da SER eine zusätzliche Stage in der Renderpipeline erforderlich macht, bringt dann aber bei Raytracing-lastigen Berechnungen massive Vorteile aufgrund der Sortierung ... und mit Frame Generation oder DLSS hat SER mal überhaupt nichts zu tun.
"Shaderaufteilung INT32 & FP32": Du erzählst hier Märchen, denn Integer-Operationen gehören nach wie vor zum regulären Shader-Betrieb und haben nichts mit einer Art Legacy-Funktionalität zu tun. FP-Operationen überwiegen zwar deutlich, ohne INT-Ops kommt man dennoch nicht aus. Beispielsweise The Witcher 3 hat mit einem Verhältnis von etwa 2 INT- : 10 FP-Operationen ein relativ schiefes Verhältnis, dagegen The Division hat schon im Mittel ein 4 : 10 -Verhältnis und Battlefield 1 liegt gar in der Nähe von 5 : 10 Instruktionen INT : FP auf den GPU-Shadern. Soviel zum Thema INT wird nicht benötigt. Darüber hinaus, mit Programmierung hast du offensichtlich auch nichts am Hut oder versuchst du bspw. einen Speicheroffset mit einem Fließkommawert zu erstellen. Andererseits, mit etwas wie 0xaf00bc + ∞ könntest du vielleicht auf den kleineren RTX-GPUs den knappen GPU-Speicher umgehen?
"Gpu's haben kein L3 cache da dieser Sinnlos wäre": Das ist Auslegungssache bzw. in deinem Kontext wieder eine unreflektierte Behauptung, die in die Irre führt. AMDs Infinity-Cache ist faktisch ein L3$-Cache auf der GPU. Bei beispielsweise RDNA3 verfügt ein WGP über L0$, der über den L1$ geladen wird, der wiederum vom L2$ am Speichercontroller gefüttert wird, der dem "Infinity-Cache" entspricht. Alleine das sind schon drei Hierarchien. Hinzu kommt, dass die Betrachtung hier Auslegungssache ist, weil innerhalb der WGPs noch zusätzliche 128 KB sogenannter Local Data Share-Zwischenspeicher zur Verfügung steht und dazu gibt es noch zusätzlich einen 4 KB großen Global Data Share-Zwischenspeicher der die WGPs verbindet ... aber schön, dass du beschlossen hast, dass das "keinen Sinn macht".
"HBM": Den Unsinn mit den 512 Bit hast du schon in mehreren Postings geschrieben, der wird aber auch durch mehrfaches Wiederholen nicht richtiger. Die HBM-Bausteine verwenden alle ein 1024 Bit-Interface, ausnahmslos, schlicht weil das der Standard ist und die schlussendliche Interface-Gesamtbreite hängt davon ab wie der Chipdesigner den Chip auslegt. Und nein, HBM hat nichts mit Cache zu tun, sondern ist DRAM.
"Die rtx racer demo war pathtracing und vor gerendert das war nicht live. Es gibt paar pathtracing demos und genau Zwei Spiele die pathtracing nutzen für Lighting Reflexion und GI
cyberpunk 2077 und the witcher 3 beide laufen mit ach und krach":
1. die Racer-Demo ist in Echtzeit berechnetes Pathtracing und läuft auf einer einzigen GPU mit um die 30 FPS, so mehrfach von nVidia erklärt, also voraussichtlich der RTX 4090, bestenfalls einer niedriger taktenden RTX 6000, die dann aber vermutlich keinen übermäßigen Geschwingdigkeitsvorteil bieten wird. Das war kein Pixar-Animationsfilm sondern eine Echtzeitdemo (ob die dagegen in der konkreten Präsentation nur als Video abgespielt wurde, spielt keine Rolle).
2. The Witcher 3 hat mit Pathtracing nichts am Hut. Hier hat man umfangreiches Raytracing nachimplementiert, mehr aber auch nicht. Beispielsweise Cyberpunk, Portal und schon seit langem Minecraft implementieren volles Pathtracing, so wie bspw. diverse gepimpte Legacy-Titel, so einige Quake-Derivate.
3. Nutzt man Pathtracing nicht für ausgwewählte Grafikfeatures wie "Lighting Reflexion und GI", sondern Pathtracing ist dann der komplette Renderer.
"DXR und PS6": Am Rande bemerkt, haben mal rein gar nichts miteinander zu tun, da Sony ein komplett eigenes LowLevel-Grafik-API verwendet.

News Geforce RTX 5000 ("Blackwell"): Gerüchte zu Nvidias Next-Gen-Grafikkarten entsprechend eingeordnet

BIOS-Overclocker(in)

PC-Selbstbauer(in)

Komplett-PC-Aufrüster(in)

Komplett-PC-Aufrüster(in)

Komplett-PC-Aufrüster(in)

Komplett-PC-Aufrüster(in)

Software-Overclocker(in)

Moderator

Software-Overclocker(in)

Lötkolbengott/-göttin

Moderator

PC-Selbstbauer(in)

Trockeneisprofi (m/w)

Moderator

Lötkolbengott/-göttin

Trockeneisprofi (m/w)

Komplett-PC-Aufrüster(in)

PC-Selbstbauer(in)

Lötkolbengott/-göttin

BIOS-Overclocker(in)

Ähnliche Themen