Benchmark-Leak: Spekulationen zur Rasterisierungs-Leistung der RTX 4090

PCGH-Redaktion

Kommentar-System
Teammitglied
Jetzt ist Ihre Meinung gefragt zu Benchmark-Leak: Spekulationen zur Rasterisierungs-Leistung der RTX 4090

Im Netz wird von dem kürzlich geleakten Geekbench-Score der RTX 4090 auf die Rasterisierungs-Leistung der Grafikkarte geschlossen. Demnach könnten die CUDA- und die Gaming-Performance ähnlich stark anwachsen.

Bitte beachten Sie: Der Kommentarbereich wird gemäß der Forenregeln moderiert. Allgemeine Fragen und Kritik zu Online-Artikeln von PC Games Hardware sind im Feedback-Thread zu veröffentlichen und nicht im Kommentarthread zu einer News. Dort werden sie ohne Nachfragen entfernt.

Zurück zum Artikel: Benchmark-Leak: Spekulationen zur Rasterisierungs-Leistung der RTX 4090
 
Wo landet dann die 4080-12 von der Rasterleistung her ungefähr, ... nur 3090?
(und teurer als ne 6900XTXH/6950)
 
Ich warte auf das whitepaper
Bis dahin lässt sich nur schwer die Leistung Einschätzen zumal hier dlss3 was man so nicht genannt haben sollte.
Bisher sieht es so aus das entweder der Takt jenseits der 3,0ghz liegt in raster bei aktiven dlss3 oder doch mehr fp32 Operationen pro sm gibt.

Hurra das whitepaper ist da

es sind pro sm 2 Einheiten drin für fp64 (rechne 2 fp32 pro Takt)
Daraus ergibt sich 66fp32 wenn dazu die sfu auch nochmal 4 Operationen dazugibt ergibt das folgende Rechnung
128*66*2,5*2+4*2,5*128=43530 gflops oder +51% vs rtx3090ti
Blöd da diesmal es schwieriger wird das zu vergleichen.
Die rtx4080 12gb erreicht knapp die 20tf und ist gleichschnell wie die rtx3080 10gb
Enttäuschend
 
Zuletzt bearbeitet:
Im Artikel ab Absatz 2 gehts eher um den Geekbench, der z.Vgl. mit älteren Vorgängern herangezogen wurde.
(rohe Rasterleistung ohne DLSS3, .... wobei Compute net 100%ig mit Gaming übereinstimmen muss, war halt nur zufällig bei
Turing-->Ampere so, ... mal schauen obs bei Ada auch so passt, ... je nach Treiberstand+Watt)
 

Anhänge

  • 2080Ti vs 3090@Geekbench.JPG
    2080Ti vs 3090@Geekbench.JPG
    24,1 KB · Aufrufe: 31
Zuletzt bearbeitet:
Das wäre ja ganz schön enttäuschend, wenn man bedenkt das die 3090 um die 45% schneller war
in der Raser Performance wie eine 2080ti.
Und dies trotz angeblich ultra schlechtem Samsung 8nm Prozess bzw. wurde die ganze Zeit behauptet das sei ja nur ein besserer 10nm Prozess.
Jetzt kommt Nvidia mit seinem super-duper 4nm TSMC Prozess daher bei Vergleichbarer Chip-Größe und
schaft nur 60%.

Das sollte eigentlich wenn nicht irgendwo ein gewaltiger Flaschenhals existiert, ein leichtes für die RX7900X werden diese zu überflügeln.
1664821846377.png
 
Schau einfach Mal die voraussichtlichen Spezifikationen etwas näher an.

NAVI 31: 12288 ALUs Boost clock ca. 3000 MHz, 384Bit (96MB / 192MB IF-Cache 2. Gen.)
NAVI 21: 5120 ALUs, Boost clock 2250 MHz 256Bit (128MB IF-Cache Gen. 1 )

Gibt theoretisch ca. 74 TFlops vs. 23 TFlops

Selbst wenn die ALUs analog Ampere ähnlich aufgebaut wären und nur einen Bruchteil an Leistung in Spielen bringen sollten.
Ampere: Pro Shader-Cluster gibt es zwar doppelt so viele FP32-, aber nicht doppelt so viele INT32-Einheiten.
Wäre das immer noch brachial:
Kleines Gedankenspiel 12288/2*1.3=ca. 8000 / 5120 = 1.56 x 3.0 / 2.25=2.1

Auch unter diesen konservativ angesetzten Bedingungen, wäre NAVI 31 bereits 2.1 Mal so schnell wie NAVI 21.
 
Zuletzt bearbeitet:
Das wäre ja ganz schön enttäuschend, wenn man bedenkt das die 3090 um die 45% schneller war
in der Raser Performance wie eine 2080ti.
Und dies trotz angeblich ultra schlechtem Samsung 8nm Prozess bzw. wurde die ganze Zeit behauptet das sei ja nur ein besserer 10nm Prozess.
Jetzt kommt Nvidia mit seinem super-duper 4nm TSMC Prozess daher bei Vergleichbarer Chip-Größe und
schaft nur 60%.

Das sollte eigentlich wenn nicht irgendwo ein gewaltiger Flaschenhals existiert, ein leichtes für die RX7900X werden diese zu überflügeln.
...
In der News wird die 3090 TI zum Vergleich herangezogen. Gegen eine normale 3090 wird die 4090 also nochmals ein Stück besser dastehen.

So oder so wird die 4090 die schnellste VGA werden, wo AMD erstmal beweisen muss besseres bieten zu können. Selbst dann ist jedem hier im Forum klar, ne 4090Ti ist nur ne Frage der Zeit.
 
Gute 50-70% Mehrleistung sind im grunde schon eine Ansage und für einen Generationensprung auch absolut ok. Erkauft wird das am Ende durch Shader ohne Ende und Stromverbrauch ohne Ende.

Ich denke die Werte des Geekbench passen so schon ganz gut im groben, interessant wird wie gut NV es hinbekommt die Shader auszulasten, damit hatte Ampere ja schon so seine Probleme. Deswegen wahrscheinlich auch die neue Renderpipeline, ansonsten würde die Shader einfach leer laufen in den meisten Games und vor allem in niedrigeren Auflösungen.
 
In der News wird die 3090 TI zum Vergleich herangezogen. Gegen eine normale 3090 wird die 4090 also nochmals ein Stück besser dastehen.

So oder so wird die 4090 die schnellste VGA werden, wo AMD erstmal beweisen muss besseres bieten zu können. Selbst dann ist jedem hier im Forum klar, ne 4090Ti ist nur ne Frage der Zeit.
Die 3090ti ist nochmals ca.5% schneller als die 4090 das macht den Braten auch nicht wirklich fett.
Da lohnt es sich schon fast nicht darüber zu diskutieren.
 
Zuletzt bearbeitet:
Gute 50-70% Mehrleistung sind im grunde schon eine Ansage und für einen Generationensprung auch absolut ok. Erkauft wird das am Ende durch Shader ohne Ende und Stromverbrauch ohne Ende.
Ich denke die Werte des Geekbench passen so schon ganz gut im groben, interessant wird wie gut NV es hinbekommt die Shader auszulasten, damit hatte Ampere ja schon so seine Probleme. Deswegen wahrscheinlich auch die neue Renderpipeline, ansonsten würde die Shader einfach leer laufen in den meisten Games und vor allem in niedrigeren Auflösungen.
nennt sich jetzt SER „Shader Execution Reordering“, erfordert aber auch speziell angepasste/gepatchte Games

Schau einfach Mal die voraussichtlichen Spezifikationen etwas näher an.
NAVI 31: 12288 ALUs Boost clock ca. 3000 MHz, 384Bit (96MB / 192MB IF-Cache 2. Gen.)
NAVI 21: 5120 ALUs, Boost clock 2250 MHz 256Bit (128MB IF-Cache Gen. 1 )
Gibt theoretisch ca. 74 TFlops vs. 23 TFlops
Die 6900 läuft selten nur mit 2250Mhz in Games, ... und ob Navi 31 gleich ab Werk 3Gig bekommt!?
(kann mir net vorstellen das AMD so hoch über Sweetspot ab Werk takten wird)
daher eher zu "schön gerechnet" der Vgl.

falls 50% mooore Fps/W rauskommen, wäre das nice to have(x)
= auch die offizielle Marketing Prognose, .... Genaueres weiß man derzeit net

(x) Milchmädchenrechnung
370W statt 300W und 50% mooore Effizienz = 85% moore Fps
(für ne Ref.@2x8pin)
 
Zuletzt bearbeitet:
Wenn die Zahlen stimmen wäre das sehr enttäuschend. 53% mehr Shader und so viel mehr Takt und dann kommt so wenig bei raus...
 
Wenn die Zahlen stimmen wäre das sehr enttäuschend. 53% mehr Shader und so viel mehr Takt und dann kommt so wenig bei raus...
Shader skalieren eigentlich nie eins zu eins mit Leistung.

nennt sich jetzt SER „Shader Execution Reordering“, erfordert aber auch speziell angepasste/gepatchte Games
Echt jetzt? Also wieder ein propritärer Rohrkrepierer. Langsam nervt dieser scheiß von den Herstellern alles immer auf Ihre Arches zu münzen, das hat noch nie wirklich geklappt und kostet am Ende alle nur Geld, den Hersteller, den Kunden und den Entwicklern.
 
Shader Skalieren sehr wohl mit der Anzahl
GPu sind seriell die einzige frage die sich stellt wo ist das cpu limit.
Ausgenommen man hat ne 16bit arch wie amd mit HD2000 Hd3000 HD4000 HD5000 HD 6000 ~40% shader Auslastung Treiber bedingt oder gcn HD7000 bis rx vega ~70% shader Auslastung Treiber bedingt

nvidia ist das je nach gen wie deren sm Struktur ist

Erste gen geforce 8800 hatte ein sm 8 fp32 shader und 2 sfu die 4 fp32 rechnen konnten Formel 3*sm count*takt*shader pro sm maximal waren das etwa 576gflops 2006

ab tesla 2 gtx200 wo die sfu verringert wurde wurde die formel sm count *Takt *2*alu per sm+ 2*sm count* 4 = der maximale chip erreichte da 1030 gflops das war 2008

fermi gtx400 formel fasst identisch sm count mal alu pro sm*Takt*2 + sm count*4sfu*4 oprationen *takt=1680 gflops
gtx500 serie addierte Nochmal auf 2,0tf das war 2010

gtx600 Serie kam nur ein Mittelklasse chip

gtx700 Serie erst den high end und hievte das limit auf reale sm count *alu pro sm *takt*2+ 32 sfu*4*sm count=6,0tf 2013

gtx900 serie änderte sich die formel nochmal
Da aber kein whitepaper mehr auffindbar ist nehme ich die 4 sfu pro sm noch an das maxed war aber ne titan x mit 7,2tf das war 2015 Ein Jahr später als die gtx980ti kam diese ist Geringfügig langsamer

pascal (gtx10) änderte sich zum ersten mal das die sfu kein fp32 mehr rechnen sm count* 2* alu pro sm*takt= maxed sku hatte 14,5tf 2016

Turing (rtx20)war anders und man setzte zum ersten mal den sm anders auf
Der clou war das man die int32 die immer da waren fp32 rechnen ließ das bedingt zwingend im treiber zu forcieren was ganz klar nicht getan wurde. (bedingt zwingend dx12 oder vulkan)
Formel deswegen sm count * alu pro sm *2*Takt= maxed sku erreichte 17,5tf. 2018

ampere (rtx30) fügte die fp64 Einheiten dazu die fp32 berechnen können
Wenn man so sehen will hat man die int32 fp32 switch Funktion in hardware umgesetzt
Formel für den high end chip aktuell ist sm count* alu pro sm *Takt *2 +fp64 Einheiten pro sm *sm count *Takt *2= 28,8tf 2020

ada derzeit prognostizierte Leistung wäre sm count *2*Takt*alu pro sm mit fp64 66 =42,5tf beim high end chip
Der voll Ausbau ist unklar ob der am desktop kommt.

was nvidia geritten hat die fp64 so drastisch zu senken weis man nicht es sind nur noch 2 fp64 pro sm übrig ampere hatte 24

Stellt sich die frage kann man den die 42tf auslasten mit aktuellen cpu?
amd zen4 ryzen 7000 ist kaum schneller als intels ci9 12th gen +10%
Und die cpu sind schon mit der rtx3090ti auf 1440p am kämpfen
Kurz die rtx4090 ist definitiv für 2160p gedacht

Aber ja sofern man die Architekturen richtig auswertet sind diese mit echten tf vergleichen durchaus an Leistung zu vergleichen.
Das problem ist das cpu limit. und das jede Konsolen gen die Anforderungen ansteigen lässt was bestimmte gen an der Speicherbandbreite verhungern.
man kann schlecht ne spiel von 2022 mit ner gpu von 2006 heranziehen ebenso ein spiel von 2006 mit ner gpu von 2022.

Konsolen releases
xbox360 2005 23gb/s 240gflops 720p ziel, erreicht oft 600p
ps4 2013 192gb/s ~1,9tf 1080p ziel, erreicht oft 900p
ps4 pro 2016 256gb/s 4,0tf 1440p ziel, erreicht 1080p
ps5 2020 448gb/s ~10tf 2160p ziel, erreicht 1440p
entsprechend sind die spiele an diesen zu richten
Am pc können die werte extrem höher liegen oder darunter thema cpu limit.

achja fps sind ohne cpu limit linear sofern nicht Speicherbandbreite oder pcie bus limitiert.
und ja cpu limit sind zu 90% Datentransfer von gpu zum ram geschuldet.
Seltener das die cpu nicht schnell genug daten bereitstellen kann.
Das auch der Grund warum Rbar so viel bringt bei cpu limitierten spielen.
Das aber ist primär Treiber bedingt bspw bei nvidia profitiert man kaum von rbar.
Das liegt auch an der Grundlage das nvidia ein task sheduler für den im directx Funktion command list bereitstellt.
Einerseits steigert dies das cpu limit (mehr last auf der cpu) aber insgesamt reduziert es diesen. je mehr kerne daran werkeln.
amd hat das nicht, darum die starke schwäche bei legacy spielen unterhalb von dx11 und bei dx11 muss der Entwickler die command list beachtet haben was auch die schwäche bei amd erklärt in vielen dx11 spielen. (siehe unreal engine spiele)
ja cpu limit isn problem.
 
Na, wieder am TF rechnen?
Vor allem was rechnest du da aus?
Guck doch lieber mal bei Techpowerup, da stehen die TF bei den Daten der jeweiligen Grafikkarte dabei.
Das wären dann:
https://www.techpowerup.com/gpu-specs/titan-xp.c2948 12,15TF
https://www.techpowerup.com/gpu-specs/titan-rtx.c3311 16,31TF
https://www.techpowerup.com/gpu-specs/geforce-rtx-3090-ti.c3829 40TF
https://www.techpowerup.com/gpu-specs/geforce-rtx-4090.c3889 82,58TF
Alles FP32 und nicht wieder irgendwelche falschen Werte.

Zudem lies mal was @Gurdi geschrieben hat.
Er schrieb, dass die Shader selten 1:1 skalieren, nicht das sie nicht mit der Anzahl skalieren.
 
@Prozessorarchitektur
Das heisst, Techpowerup und auch all die anderen Redaktionen rechnen falsch, nur du nicht.
Ja ne, ist schon klar.
Vor allem da du genau das gleiche rechnest.
Nehmen wie doch mal die 20er Reihe, also Turing.
Deine Formel ist da:
sm count * alu pro sm *2*Takt= maxed sku erreichte 17,5tf.
Fügen wir mal die Werte ein des maxed TU102 ein:
72*64*2*1770=16,312TLOPS
Wie kommst du auf 17,5TFLOPS?
Schreib doch mal deine Werte hin.

Vor allem wie kommst du bei deiner eigenen Rechnung der 3090ti auf 28,8TFLOPS?
Du rechnest doch:
84*128*1860*2+168*84*1860*2
Das sind bei mir 92,5TFLOPS.

Btw, Turing hatte auch schon FP64 Einheiten.
 
Zuletzt bearbeitet:
Zurück