Radeon RX 6000 und Geforce RTX 3000 im Latenzvergleich: Was bringen große Caches und Latenzen?

gerX7a · 22. April 2021

Die theoretische FP-Peak-Performance über die regulären ALUs bei beiden GPUs ist exakt wie oben beschrieben.
Übrigens auch recht schön bei Doom Ethernal zu sehen, denn die id Engine macht umfangreichen Gebrauch davon.

Mir scheinst du hast falsch/über/gelesen oder es nicht ganz verstanden. Ich sprach ausschließlich von der FP16-Performance über die regulären ALUs und dein eigener Screenshot bestätigt den von mir bereits zuvor ausgewiesenen Wert an FP16-Performance.
Dagegen das Sparsity-Feature in Verbinfung mit den Tensor Cores v3 habe ich nicht einmal erwähnt, denn damit würde sich deren theoretischer FP16-Durchsatz gleich noch mal verdoppeln.
Und wenn die Tensor Cores genutzt werden könne, wird es gar ein vielfaches schneller als auf RDNA2, was schlicht daran liegt, weil RDNA2 keine speziellen Funktionseinheiten besitzt (konkret gemäß Peak-TFlops rd. 3,1x schneller über die Tensor Cores v3).

256 GFlops/Tensor Core v3/GHz (mit Sparsity gar bis zu 512 GFlops/Tensor Core v3/GHz)
4 GFlops/ALU/GHz auf Ampere (5248 ALUs * 1,7 GHz) *)
4 GFlops/ALU/GHz auf RDNA2 (5120 ALUs * 2,25 GHz)

Wie ich schon bereits zuvor erwähnte, ist möglicherweise nur eine der FP32-Einheiten in Ampere FP16-fähig, dewegen kann man "1x" schreiben, der architektonsiche FP16-Durchsatz ist jedoch in beiden gleich (wenn man das Vorhandensein der Tensor Cores ignoriert).

*) Oder aber nVidia hat die Komplexität deutlich reduziert und lädt nun ein FP16-Format einfach in die FP32-Register und prozessiert diese als solche, sodass beide Einheiten tatsächlich nur in 1:1 rechnen können, was aber immer noch zum gleichen Endergebnis führt, d. h. entweder sind es 2 Flops/Core/Clock als 10496 ALUs * 1,7 GHz oder es sind halt 4 Flops/Core*/Clock als 5248 ALUs * 1,7 GHz. Am Ende haben hier Turing/Ampere/RDNA1/RDNA2 weiterhin den gleichen Durchsatz.
RDNA hat "keine verdoppelten Cores" und hat wie schon seit Vega-Zeiten den unverändert gleichen Durchsatz von 2 Flops/ALU/Clock FP32 oder 4 Flops/ALU/Clock in FP16.

RX480 · 22. April 2021

mach doch einfach mal 2 Screenshots in Godfall mit HDR10@LP on/off
(natürlich an nem HDR10-Moni)

latiose88 · 22. April 2021

Nathenhale schrieb:
In der Regel gilt hier je höher die Auflösung des desto größer ist auch der Benötigte Cache.

Ja halt die Frage was versteht man denn unter hohe Auflösung Full HD,WQHD oder erst ab 4k.
Nun ich habe ein Problem. Weil ich ja nen Unterschied zwischen sehr alten GPU mit höherer Bandbreite und neuerer kleinen GPU mit weniger Bandbreite aber dafür L2 Cache.
Ich habe also ein Spiel namens Serious sam 2 das von hoher Bandbreite Profitiert. Auf ner gtx 8800 läuft es super. Hat ja auch 86 Gb Bandbreite aber dafür halt 0 L2 Cache. Nun habe ich eine Laptop GPU um Visier das zwar von der Architektur wirklich gut ist aber halt nur 16 Gb Speicherbandbreite dafür aber 1024 KB L2 Cache.
Nun halt die Frage in wie weit kann L2 Cache das ganze abfangen?

Hier mal das Problem was ich meine,weil es ja auf dieser Webseite gut zusammen als Vergleich dient:

GeForce 840M 2GB compare GeForce 8800 GT GPU

Compare GeForce 840M 2GB & GeForce 8800 GT graphics card Gaming performance vs system requirement comparison

www.game-debate.com

Nun halt die Frage wie stark beeinflusst der L2 Cache das ganze und wieviel kann dieser die Mangelnde Bandbreite ausgleichen. Denn das wird ja leider nirgendswo genauer beleuchtet.

Es ist also nicht nur bei mir die Latenz das Problem sondern auch die Speicherbandbreite.
Ne gt 420m ging bei dem Spiel Serious sam 2 die Puste aus. Bis 1600x900 reichte anscheinend die Bandbreite aus ,weil dank den 256 Kb Cache konnten die 25 Gb Pro Sekunde wohl etwas ausgleichen.
Nun sind es ja nur noch 16 Gb/S an Banbbreite. Könnte man diesbezüglich echt einen Praxisrelevanten Test erwarten. Da sind ja solche Techniken wie Delta Color Compressionen als solches ja noch nicht vorhanden. Würde mich also freuen da etwas vergleichbares zu bekommen.

ChrisMK72 schrieb:
Ja, so mach ich das schon lange. P1/P5 sind mir wichtiger. Deswegen limitiere ich die fps ja auch auf den Wert, wo's mir "reicht". Ob ich 150, oder 850 fps maximal hab is mir wurscht, da ich aktuell immer auf 70 fps limitiere, da ich das ganz angenehm empfinde zum Zocken und nicht (nutzlos) zu viel Strom verpulvere.

Hm was meinst du denn mit P1/P5 wie heißt das denn ausgeschrieben und was meinst du damit etwa Peak 1 /Peak 5?

latiose88 · 22. April 2021

gerX7a schrieb:
Die WGPs werden bei der RX 6900 XT in acht Shader Engines gebündelt, die noch mal jeweils über 128 KB L1 verfügen, d. h. im best case kann man den typischen 5,125 MB L1 bei Ampere maximal 2,25 MB L0 + L1 gegenüberstellen.

Eine Frage was sind WGPs und wie heißt das ganze denn ausgeschrieben?
ALso ich kann damit nix anfangen und google spuckt da auch nicht wirklich was dazu aus wenn ich da einfach nur WGPS als such Wort eingebe.Danke schon mal für die Antwort dafür.

gerX7a · 22. April 2021

Zuvor hat AMD vier Compute Units (CU, jede mit 16 KB L1$ Data) mit einem 32 KB Instruction-Cache (I$) und 16 KB Constant-Cache (K$) zusammengefasst.
Mit RDNA hat man das umgestellt und fasst nun zwei CUs zusammen zu einem Work Group Processor (WGP, seltener auch Dual Compute Unit genannt), der hier ebenfalls mit 32 KB I$ und 16 KB K$ zusammengefasst wird. Der lokale 16 KB-Cache wird nun als L0$ bezeichnet, da man noch eine weitere Cachestufe eingeführt hat. Die beiden L0$ in der WGP sind unabhängig und nicht cachekohärent (zumindest nicht in RDNA, vermutlich jedoch auch weiterhin nicht in RDNA2), was für eine optimale Programmierung zu berücksichtigen ist.
Die WGP ist bei RDNA die kleinste, direkt ansteuerbare Ausführungseinheit. Genaugenommen ist WGP = 2 CUs auch nicht ganz korrekt, denn ggü. der früheren Implementation hat sich hier effektiv durch die Reduzierung der zusammengefassten CUs das I$- und K$-Verhältnis verdoppelt und die WGP verfügt, wie früher das 4er-CU-Bundle, weiterhin über 4 ScalarUnits. In einer groben Betrachtungsweise kann man es aber vereinfachend bei 1 WGP = 2 CUs belassen.
In der nächsthöheren Organisationsstruktur werden dann 5 WGPs zu einer Shader Engine zusammengefasst, die ihrerseits nun über 128 KB L1$ verfügt.
Entsprechend verfügt der größte Chip mit 80 CUs über 8 Shader Engines, die danach folgenden 4 MB L2 sind global ebenso wie der neue 128 MB L3, der nun noch dazwischengeschaltet wurde.

latiose88 · 22. April 2021

Toll nun weis ich ja wie die Funktion dieser Einheit funktioniert.Aber nicht wie das WGPs ausgeschrieben wird. Wie wird es denn ganz ausgeschrieben?

Olstyle · 22. April 2021

Steht direkt am Anfang: Work Group Processor

latiose88 · 22. April 2021

Ok diese Frage ist ja nun beantwortet aber halt nicht die andere Frage. Kann L2 Cache die niedrige Bandbreite ausgleichen ,wenn ja wieviel Brächte man an L2 Cache um mehr als die doppelte weniger Speicherbandbreite auszugleichen oder wird sowas nie wirklich auszugleichen möglich sein?
Denn ich habe leider nichts dazu irgendwo gelesen gehabt. Mich würde es aber sehr interessieren. Wo kann man das denn nachlesen,denn sowas wird halt eben nicht explezit davon bereichtet.

Olstyle · 22. April 2021

Der L3, den AMD Infinity Cache getauft hat, kann offensichtlich Bandbreite am Speicherinterface ausgleichen. Sonst würden die ganzen RDNA2 Karten deutlich langsamer laufen.
In festen Zahlen lässt sich das aber nicht ausdrücken weil es sehr von der konkreten Last abhängt.

latiose88 · 22. April 2021

So ich habe es nun vergleichen können. Ich hatte ja früher eine gt 420m gehabt mit 25 gb Banbreite und 256 kb L2 Cache.
Nun hatte ich ja nen vergleichbare GPU namens Intel Hd 4000 mit ebenfalls 25 Gb Bandbreite aber dafür 1024 L2 Cache. DIe selben Settings ja es mag zwar etwas mehr FPS haben aber halt nicht so viel. Ich bin da irgendwie entäuscht von dem ganzen. Habe mir durch die Cache Entlassung weit mehr Vorgestellt. Die Fps sind nun etwas aber nicht viel von den 30 fps entfernt. Gespielt habe ich auf Full HD. Kantenglättung war nicht möglich weil es dann bei 15 Fps eingebrochen hatte.Es ist ein internes eigens Kantenglättung vom Spiel. Ich habe da nicht wirklich einen Unterschied bei der Glättung gesehen gehabt aber frisst viel Leistung. Nun die minimum fps hat es leider nicht anheben können aber deutlich öfter nicht nicht in den mimum Fps. Also der L2 Cache hat scheinbar auch keine Wunder vollbracht. Dachte die Fps wären dann weit höher dank des Caches weil es ja was abfedern kann.
Wie man sieht sind die Cache überbewertet wenn es hart auf hart kommen tut.Ich kann es ja vergleichen weil ich genau weis wie viel FPS ich erreicht hatte. Wobei wie man sieht das es bei mir nie an den Shadern oder sowas gelegen hatte.Denn sonst würden die Fps dauerhaft im ruckeligen Bereich sein. Anscheinend sind 25 GB/s so wenig das L2 Cache und nein ich Schreibe nicht von L3 Cache weil das hat keiner meiner GPUS weil sie ja so alt sind.

So viel mal dazu Cache würde die Mangelnde Bandbreite ausgleichen. DIe Hersteller haben uns angelogen. DIe Bandbreite ist weit wichtiger als der olle Cache. Ich bin da sehr Penible. Selbe Spiel,selbe Settings ,die selbe Map und Fraps der wo es immer genau anzeigt. Das ganze mit den beiden GPUS und schon hat man da einen vergleich. Würde ich sowas nicht testen,hätte ich noch immer gelaubt der Cache würde hier was zerreisen.

DIe altehrwürde uralte Highend GPU namens gtx 8800 aus dem Jahre 2005 hat kein L2 Cache und dank ihrer Bandbreite zereist sie jede Onbaord GPU trotz weniger Shader und so. Bandbreite ist also das Zauberwort.
Kein Wunder das die meisten nicht mit ner Onbaord GPU zocken.Sie verhungert einfach an ihrer Bandbreite. Vielleicht hätte ihr 4 MB L2 cache geholfen aber 1024 KB sind einfach viel zu wenig um die Bandbreite hier auszugleichen.

Olstyle · 22. April 2021

IGPUs mit ordentlichem Cache, übrigens auch wieder L3, nennt Intel Iris Pro/Plus. Und siehe da, die sind ein gutes Stück schneller ohne den Extra Speicher.
Eine 8800GTX ist aber nunmal High-End unter ganz anderen Voraussetzungen gewesen. Die durfte auch 155W verbraten.

latiose88 · 22. April 2021

Ja schon ich weis das diese noch immer mehrleistung hat als die ganzen Onbaord GPUS. Und es wird wohl noch ne einige Zeit dauern bis die Onbaord GPUS ebenso solch eine hohe Rohleistung haben. Wenn ich bedenke wie wenig Shader diese Onbaord GPUS haben echt beeindruckend.Dennoch es bringt denen leider nix wenn sie wegen ner Bandbreite die Leistung einbricht. Da kann die Shaderleistung noch so gut sein,es bringt denen nix. Ich kann es eben leider nicht vergleichen weil ich halt eben keine Iris Pro GPU habe.
DIe Hd 4000 duliert sich wohl eher mit ner 8600 Gt/ 8500 Gt. Wenn ich bedenke wie lange schon die Entwicklung ist,ist das wirklich sehr langsam. Wenn dann bräuchte ich dann halt mal nen neuen Laptop. Die Iris Pro finde ich dann schon ansprechender. Es müsste halt dann ausprobiert werden inwiefern dann wie gut sich diese dann beim gleichen Spiel sich schlagen wird.
Serious sam 2 war ja für seine horrenden von Gegner und weiten Landschaften bekannt und braucht daher viel Bandbreite.Darum ist erst ab ner 8800 gts 640/320 und ich weis das ich das Game mit ner 9600 gt bei so hohen Settings und sogar mit Kantenglättung zocken können ohne Ruckler. Da sieht man mal wie schwach die Onbaord GPUS sind.Aber damit habe ich mich ja schon abgefunden.

Olstyle · 22. April 2021

Die HD4000 ist ja auch schon Antik und nicht repräsentativ für aktuelle Onboard GPUs. Die einzige Seite auf der man eine Iris Plus 650 mit einer 8800 GTX Vergleichen kann (Userbenchmark :-S

) gibt der aktuellen IGP Jedenfalls >60% Vorsprung und die wiederum wird von einer Vega 10 um bis zu 20% abgehängt.

latiose88 · 23. April 2021

Ok dann bin ich gesapnnt ob ich einen Laptop mit 8 Kernen,16 gb Ram und mindestens mit ner Vega 10 zu kaufen bekomme.Ich kenne mich da aber leider nicht aus.

Radeon RX 6000 und Geforce RTX 3000 im Latenzvergleich: Was bringen große Caches und Latenzen?

gerX7a

BIOS-Overclocker(in)

RX480

Lötkolbengott/-göttin

latiose88

BIOS-Overclocker(in)

GeForce 840M 2GB compare GeForce 8800 GT GPU

latiose88

BIOS-Overclocker(in)

gerX7a

BIOS-Overclocker(in)

latiose88

BIOS-Overclocker(in)

Olstyle

Moderator

latiose88

BIOS-Overclocker(in)

Olstyle

Moderator

latiose88

BIOS-Overclocker(in)

Olstyle

Moderator

latiose88

BIOS-Overclocker(in)

Olstyle

Moderator

latiose88

BIOS-Overclocker(in)

Ähnliche Themen