Benchmark-Leak: Spekulationen zur Rasterisierungs-Leistung der RTX 4090

Prozessorarchitektur · 5. Oktober 2022

4608*2*1,9=17510gflops akä rtx Titan
Turing war neben pascal die einzige gen wo die tf angaben stimmten und die Formel auch übernommen werden kann
Man genehmige sich mal die whitepaper und mache benchmarks entsprechende gpu load beachten von g80 bis ga102
und wie gesagt maxwell hat kein whitepaper was die Formel ins wanken bringt tendenziell sehe ich aber das die sfu kein fp32 rechnen
Das bedingt aber das es fp64 enthalten sein müssten ich tendiere aber das die sfu nicht rechnen
Weil man auf dem 28nm node ansonsten nicht um 200-500mhz an Takt gewinnen konnte.

ich nahm immer die höchsten chip was so läuft
g80 2006 128alu + sfu 4 mal fp32
gt200b 2008 240alu + sfu 4 mal fp32
gf100 2010 480alu + sfu 4 mal fp32
gf110 2010 512alu + sfu 4 mal p32
gk110 2013 2880 alu + sfu 4 mal fp32
gm200 2015 3072 alu/unklar ob sfu rechnet theoretisch könnte es sein
gp102 2016 3840 alu
tu102 2018 4608 alu
ga102 2020 10768 alu perse fp16 darum die etwas komplizierte Formel effektiv hälfte + 24 fp64. 64+24=7392 alu
ad102 2022 18432 alu nochmal halbiert kommt eher hin (64+2)*142=9372 alu

Warum man von Anfang an die Grundformel bei fp32 so gesetzt hat weis ich nicht
Darum braucht man ja nen Nenner da nicht jede gen dieselbe arch hat.

Und wen wie bei amd mal Generationen die fp16 basieren bzw auf fp64 kommt es stark auf dem Treiber an.

Das schöne an nvidia Architekturen ist das diese auf den kleinsten Nenner sind und somit klar Linear skalieren.
Da gibt es kein kleineren Nenner

and gcn hat gezeigt das man mit 64bit basis sich ein cpu bottleneck antut entweder es kommen nicht genug daten an oder die cpu kann nicht genug drawcalls verarbeiten womit das maxed der Auslastung bei 70% beträgt (vega)
Noch älter gen ist der Ansatz auf halbe Genauigkeit da schaffte amd nur 40% load der shader.

Bei hardware ist nix zufällig die unbekannte ist cpu limit und das design der spiele.
Was man anhand der gpu load sehen kann.
Nahezu jede gen hatte ausreichend Bandbreite, tmu sowie rop Leistung gegenüber Shaderleistung.
Und wie beschrieben Spiele werden Primär für die Konsole designet abseits paar ausnahmen die richten sich nach der häufigsten verkauften gpu jeweils des Jahres.
ich würde nicht anders Planen

Noch wichtig fp16 fp32 fp64 sind die bittiefe womit der shader arbeitet
Einfache Genauigkeit (fp32) ist deswegen ideal da Spiele linear ablaufen da kann man nix out of order vorplanen wo eine half oder double was bringen würde.
Diese Ansätze sind gescheitert da auch 2 fp32 zusammenfassen bei gcn fp64 nur bei direkter gpu Programmierung geht.(packet math)
Da dies zusätzliche Arbeit ist und von amd nicht im Treiber erledigt werden kann hat das natürlich keiner getan.
Einen ähnliche Ansatz macht aktuell intel bei arc es ist eine fp64 Architektur gpu Auslastung zwischen 60-75% das entscheidet der Treiber.
Aber nur unter dx12 da die gpu kein natives dx11 oder dx9 beherrscht
Das wird an sich ein spannendes Thema

Mir ist bewusst das einige sku bei nvidia Generationen sich bei neueren gen deutlich langsamer oder schneller sind eine titan black müsste um 22% schneller sein als ne gtx1060
Faktisch sind die beide gleichauf. (laut techpowerup)
Und gegen Kepler vs maxwel2 gm206 (1024 alu) vs gk104 (1152alu) beide sind quasi gleichschnell laut Test
Leider verfehlen viele test da man in vram bufferlimits rennt. (gm206 4gb vs gk104 2gb)
Die Ungereimtheiten müssen noch beseitigt werden
Wie gesagt die variable sind die Spiele und das cpu limit.

Wie ich darauf komme das sfu fp32 mal 4 rechnet das liegt am Ursprung von Tesla
Die basis der nvidia Architektur hat sich nur erweitert nicht geändert.
Lediglich software Limitierungen wurden je sku angewendet. insbesondere fp64 Leistung zu beschränken um die quadro sparte abzugrenzen.

insgesamt ist auch klar warum nvidia so vorgeht man will technisch erklären ohne verweis auf die reale perfomance zu geben.
Darum sind die tf angaben ohne Anpassungen nicht brauchbar.
Das wie wird von patenten geschützt nur nervt mich diese marketing Gelaber wenn real die performance klar berechnet werden könnte.
Ob das dann auch in spielen in fps ankommt ist ne andere frage. Und muss je Konsolen gen Zeitpunkt verglichen werden möglichst ohne cpu Limit
Das wirft uns zurück, nur test belegen die unterschiede. Bedingt stimmt das aber es wäre ehrlicher zu sagen Test zu diesen Jahr bzw Konsolen gen vergleich und das dies fortlaufen dynamisch anpasst ist klar das ältere gen deutlich langsamer Erscheinen als sie sind.
ich war selber überrascht wie gut meine alte gtx460 abschnitt bzw 9800gtx+ und die gtx1060 deutlich schneller erwies als es die fp32 Einheiten die nvidia angibt bei ampere.

JoM79 · 5. Oktober 2022

Warum rechnest du mit dem falschen boost?
Und wo ist deine Rechnung für Ampere?
Du drehst dir das irgendwie hin, wie es dir gerade so passt.
Bestätigt nur, dass deine Rechnungen Quatsch sind.

zerrocool88 · 5. Oktober 2022

die frage die ich mir stelle ist die ob die benches mit der 4090 bei normalen strom verbrauch sind. Hies es nicht das man die noch auf 600Watt prügeln kann? was sich auch in der leistung bemerkbar machen würde`?

Benchmark-Leak: Spekulationen zur Rasterisierungs-Leistung der RTX 4090

Prozessorarchitektur

Lötkolbengott/-göttin

JoM79

Trockeneisprofi (m/w)

zerrocool88

Software-Overclocker(in)

Ähnliche Themen