Wie viel Leistungsplus ist eigentlich noch möglich?

Thalaam

Kabelverknoter(in)
Aufgrund der horrenden Leistungsaufnahme der neuen RTX Karten, sieht es mir danach aus, als würde man sich das größte Plus in der Leistung vor allem durch einen höheren Stromverbrauch ermöglichen. Das glaube ich auch, weil der größte Leistungssprung nichts mit roher Leistung zu tun hat, sondern mit DLSS. Ein anderer großer Sprung in der Leistung besteht in der Optimierung von Raytracing.

Aber die reine, rohe Leistung in der Rasterisierung unabhängig von DLSS und Raytracing, wird eigentlich vor allem durch einen höheren Stromverbrauch erreicht oder täusche ich mich da?

Deshalb hatte ich euch mal fragen wollen, was ihr glaubt, was da ein Leistungsplus und Innovation in reiner Performance überhaupt noch möglich ist. Dieser starke Fokus auf Raytracing und DLSS kombiniert mit diesem absurden Stromverbrauch zeigt mir, dass man auf gewöhnlichem Wege nicht mehr viel Leistung rausholen kann und die Technik langsam aber sicher stagniert. Wie wird das denn bei künftigen Generationen aussehen?
 
Immer schön auf Nvidias Pressematerial stürzen- dann weiß man das Raytracing und DLSS das Zauberpulver der Zukunft sind.
Dann noch schöne Wörter wie KI oder Depp-lerning und die Welt blüht förmlich auf.
Das da nur wieder ne Kuh durch´s Dorf gejagt wird, nach Pysx und all dem probitärem Kram, um den Geldbeutel zu öffnen...kann ja nicht sein!
Sorry das es Dich erwischt- seit der Nvidiavorstellung hab ich einfach Hals, weil bestimmte User einfach Alles verteidigen!
Gruß Yojinbo
 
Nun erstmal seitdem gpu vom starren Maximaltakt weg sind und eine quasi auto oc Funktion haben mit eine Stromverbrauch limitierung und temperaturlimitierung
ist an sich Oc bei gpu hinfällig.
Wichtig für heutige gpu ist diese möglichst kühl zu bekommen.
Dabei sind maximal nur noch 200mhz drin entsprechend auch die Leistungssteigerungen.
bsp meine gtx1060 von 2016 erreicht ab werk etwa 1,92ghz Angabe vom Hersteller 1,75ghz
manuelles erhöhen des PT bringt etwa 5% aber bei nen Strom bedarf von 140w statt 120W
Reduziere ich das auf PT 75% kommen noch 90% der fps an bei etwa 100w
Stelle ich auf minimum ein (60%) gibt es bei 75w noch 80% der Leistung
Da merkt man das die gpu schon arg am limit war bei der 16nm Fertigung
Gleiches gilt für die rtx3060 die mit 75% PT noch bei 1,75ghz bleibt und quasi 98% der fps hat
Ampere (RTX30) läuft quasi am limit der Fertigung wo noch bei pascal (gtx10) nah dran war.
Erst ab 60% PT kommt die gpu auf 1,65ghz und verbraucht statt 170w nur noch 100w

So und nun zu kommende gen rtx40 (ada)
die kommende gen wird vermutlich die Strategie haben das man explizit dlss3 braucht um den Takt zu steigern.
Ohne wirds heiß, soweit zu den fakten der ersten Vorstellung offiziell von nvidia

Der Grund liegt an der dichte der Ada Architektur vs ampere. Man hat die wärme dichte quasi verdoppelt
Den meisten platz nimmt RT und tensor core und L2 cache ein
Da die alu aber aber um 50% kleiner sind wird das ein Problem da man beim ad102 450w irgendwie abführen muss.

Nun warum steigert man überhaupt den Takt so an
Das liegt an der architektur wenn nvidia sm (shadermodul) Bild genauso stimmt ist auch klar warum, ada hat weniger fp32 Ausführungseinheiten als ampere
Und man den Takt maximiert und über dem maximum der Fertigung wirds eben heiß
Die Lösung ist simpel aber auch problematisch.
man schaltet quasi den halben sm ab um dann den Takt zu steigern. Wärme verteilt sich mehr und der Takt geht rauf.
ich schätze von den offiziellen 2,5ghz auf maxed 3,1ghz bei gleicher Abwärme.

Problematisch wegen weil es dafür explizit die dlss3 Funktion braucht.
Ohne diese laufen die Sm komplett und werden aufgrund des int32 Bereitstellung wärmer was den Takt limitiert auf die besagten 2,5ghz.
Und nicht falsch verstehen das ist ebenfalls dann die 450w tbp

ich sehe da ein Grundlegendes problem die gpu auszulasten aus den beeindruckenden 128sm und theoretischen 82tf sind real maximal 41tf drin
Ampere hat etwas mehr fp32 Operationen pro sm 88 vs 64
Das ist schon enttäuschend das man für das design sich für turing (rtx20) weiterentwickelt hat. Zeigt aber auch das ampere gar nicht Ursprünglich gedacht war fürn desktop.
Egal, wichtig ist das real dann jede ada sku mehr sm braucht für die gleiche Leistung als ampere
Die alternative ist den Takt so hoch wie nur möglich zu bringen da sind 12-25% durch deaktivieren des halben sm die Lösung was dann bei kleineren chips wie ad106 bis zu 3,8ghz sein werden.
Entsprechend auch die tbp der sku

Der ad103 hat offiziell tbp von 385w
Der ad104 285w
Der kommende ad106 vermutlich 200w / rtx4060ti rtx4060
Der ad107 150w /rtx4050
Wieviel sm pro sku es sind ist noch offen
Im Gespräch sind beim ad106 von 28-40sm das hängt von der yield ab.
Beim ad107 20-24sm aber die Tendenz ist 24

mathe

40*2*64*3,5=17,9tf/vermutete rtx4060ti
36*2*64*3,6=16,7tf/vermutete rtx4060
32*2*64*3,7=15,3tf eine option als rtx4060
28*2*64*3,8=13,7tf eine option als rtx4050ti
Alle haben in etwa dieselbe tbp von 200w

Die sinnvollste sku wär die mit den meisten sm aber das ist noch völlig offen
ich tippe fasst das die rtx4060 den mit 36sm werden wird bei maxed 16,7tf unter dlss3 und ohne nur 12,9tf
beim ad107 gehe ich von maxed 3,6ghz aus bei 150w
24*64*2*3,6=11tf und min von nur 8,9tf definitiv die rtx4050

Das problem wird sein das nvidia dies mit dlss3 als vergleich fordern wird bei Tests.
Darum gehe ich fasst davon aus das dies im Treiber unter DSR als option in default sein wird.
Es ist sogar möglich das wenn die option an ist, der verbrauch drastisch sinkt. bspw von den 200w dann nur noch 150w werden.
Der Grund warum könnte sein das teile des chips schlafen geschickt wird und andere teile quasi die int32 Operationen übernimmt also die tensor kerne.
Das wäre möglich ist aber extrem viel aufwand beim Treiber und genau hier könnte dlss3 eine rolle spielen.
Standard wird sein das die 64fp32 und int32 die fp32 option beraubt werden wenn aktiv ist in hybrid zu rechnen, und stattdessen die int32 explizit bleiben aber größtenteils schlafen was wärme einspart und den Takt erhöht.
Das wäre eine Lösung um mehr fp32 Operationen zu erreichen die andere wäre für jedes spiel die int32 fp32 Umschaltung zu planen im Treiber.
Was wir bei turing gesehen haben kaum einer macht.
Die folge ist hohe strombedarf oder keine gpu Auslastung und da kann ich mir vorstellen das dlss3 als Lösung Angebote wird obwohl die nur mit Kombination als plug in greift.
Und als standard dann den Takt erhöht.
Das wäre eine geniale Lösung für das problem was ada hat, eine zu hohe Transistordichte die den maxed Takt limitiert.

Das erklärt auch warum dlss3 nicht für die älteren gen gibt.

Bliebe die rtx4070 wieviel sm aktiv sein werden ist offen von 48-56 sind drin
Der chip an sich wird vermutlich 72sm haben
Da der 60sm als rtx4080 12gb verkauft wird. Nehme ich 52sm an bei gleicher Logik käme man auf maxed 21,9tf und min bei 17,3
Das wären stolze +10% vs rtx3070 bis +40%.

Ada enttäuscht auf ganzer Linie. Einzig dxr wird überzeugen.
Aber beim verbrauch haste recht ada trotz 5nm Fertigung gleiche verbrauch relativ gesehen vs ampere.

Das aber hängt jetzt primär davon ab welche sku welchen chip bekommt. und wie viele sm aktiv sind.
Optimum wäre rtx4060 ad106 mit 40sm das schlechteste wäre 28sm
Der verbrauch wäre in etwa gleich bei etwa 200w tbp
Effizienzsteigerung ~25%
Möglich wären sogar +46% würde man mehr sm aktiv lassen 40 z.b und nur bei 2,6ghz setzen was etwa 170w tbp wären.
Aber ich zweifle stark daran das nvidia das machen wird.

Achja vergleich ga106 rtx3060 9,1tf für 180w tbp 28sm
 
Zuletzt bearbeitet:
Zurück