Ja das verstehe ich schon. Aber man sieht hier sehr klar das die 4090 ihre rechenwerke nicht wirklich optimal nutzt. Da kann man nur hoffen das dies im Laufe der Zeit noch via Treiber verbessert werden kann, denn gerade Mal 20% Mehrleistung bei 50% mehr Ausführung Einheiten ist schon sehr ineffizient.
Dieser Test sollte Licht ins Dunkel bringen:
NVIDIA RTX 4090 power efficiency tested with power limit/undervolting QuasarZone have an interesting comparison between power limit and undervolting on NVIDIA’s flagship GeForce RTX 4090 GPU. It should be said beforehand that RTX 4090 power efficiency is already quite good which was demonstrated...
videocardz.com
Mit 60% des Power Limits (268/450W) kommt die 4090 immer noch auf 94% ihrer Leistung. Man könnte das als Stromsparwunder bezeichnen. Oder halt 270W als ein Limit des Chips.
Dazu sollte man sich ins Gedächtnis rufen, dass in so einem Chip die eigentliche Berechnung weniger Strom verbraucht als die Rechenaufgabe über den PCIe Bus in den richtigen Cuda Kern zu schieben. Es gibt ein Bewusstsein dafür, dass bei 450W schon mal locker 50W auf den RAM entfallen. Was man bedenken sollte, ist dass von den anderen 400W ebenso locker 200W auf hin- und her kopieren von Daten entfällt und nur der Rest auf eigentliche Berechnungen. Deswegen ja der Trend zu größeren Caches, weil dann mehr Daten nahe dem Ort sind an dem gerechnet wird und weniger Energie auf das Kopieren von Daten verschwendet werden muss.
Wir suchen also einen anderen Unterschied zwischen 4090 und 4080 als Cuda-Kerne und Takt. Das bringt uns zum Thema Speicherbandbreite. Bei der 4080 sind das 717 GB/s und bei der 4090 sind es 1008 GB/s. Die 4090 hat das 1,68-fache an Cuda Kernen, aber im Vergleich zur 4080, aber nur um den Faktor 1,4 höhere Speicherbandbreite.
Dann sind wir bei dem Punkt an dem wir fragen müssen, ob doppelt so viele Cuda Kerne auch doppelt so viel Speicherbandbreite brauchen. Die Antwort gibt Nvidia selbst, indem bei der RTX40 der Cache stark vergrößert wurde. Das ist ein starker Hinweis, dass doppelt soviele Cuda Kerne eher mehr als das Doppelte an Speicherbandbreite brauchen. Da ist der Haken bei der 4090 und Gaming Benchmarks, die Speicherbandbreite ist ein Flaschenhals bei so vielen Cuda Kernen.
Deutlich sieht man das am Design der echten High End Nvidia Karten, der A100 oder H100 für den Enterprise Bereich. Die A100 hatte 1500 GB/s und die H100 sogar bis zu 3352 GB/s. Letzteres ist eine 700W Karte die pro Cuda Core knapp unter 2GHz an Takt fährt. Auch da sieht man wie wichtig die Bandbreite ist um alle Cuda Kerne ins Spiel zu bringen und wie brutal viel Energie das frisst im Vergleich zur Berechnung um Cuda Kern selbst. Die 350W Variante der H100 spart die Hälfte an Strom mit im Wesentlichen nur einer Maßnahme. Bandbreite runter von 3352GB/s auf 2039 GB/s
All diese Faktoren im Zusammenspiel lassen mich zu dem Schluss kommen, dass GDDR6X der falsche Speicher für die 4090 ist. Dem geht einfach die Luft aus, deswegen wird aus 60% mehr Cuda Cores nicht 60% mehr Leistung. Deswegen ist es auch (fast) egal ob man 270W oder 450W in die Karte pumpt, der Flaschenhals geht deswegen nicht weg.
Finde einen Benchmark der die Speicherbandbreite nicht ausreizen muss und nicht so viel Daten ständig kopieren muss und ich zeige Dir eine 4090 die wirklich 60% schneller ist als eine 3080.