Geforce RTX 4000: Angeblich mit 100 TFLOPS FP32-Performance

G

Gast1655586602

Guest
Fairerweise muss man ja sagen, dass dieser "70 = 80Ti/90" Sprung vor Turing normal war. Das ist halt 8 Jahre her....
Ja stimmt, aber das war alles noch in reiner Rasterisierungsleistung gemessen. Seit Turing hatten wir eine Aufteilung in reines Rendering/Rasterisierung und Bildverbesserung in u.a. den zusätzlichnen Tensor- und Raytracingkernen. Beispiele dafür sind DLDSR und DLSS sowie viele DX12 Ultimate & Multimedia features.

Alles in allem hat sich seither die Bildqualität und allgemein die Grafik enorm erhöht. Das kann man nicht alles in reinen FPS messen.
Im Gegenteil ist der Fall. Als Spieler merkt man überhaupt nicht mehr, welche Technik im Hintergrund arbeit. Ohne diese würden die FPS sogar mehr abfallen.
 

SweetHomeAlex

Komplett-PC-Aufrüster(in)
Ja stimmt, aber das war alles noch in reiner Rasterisierungsleistung gemessen. Seit Turing hatten wir eine Aufteilung in reines Rendering/Rasterisierung und Bildverbesserung in u.a. den zusätzlichnen Tensor- und Raytracingkernen. Beispiele dafür sind DLDSR und DLSS sowie viele DX12 Ultimate & Multimedia features.

Alles in allem hat sich seither die Bildqualität und allgemein die Grafik enorm erhöht. Das kann man nicht alles in reinen FPS messen.
Im Gegenteil ist der Fall. Als Spieler merkt man überhaupt nicht mehr, welche Technik im Hintergrund arbeit. Ohne diese würden die FPS sogar mehr abfallen.
Das stimmt natürlich, ich finde auch die neue Unreal Engine superspannend, weil hier endlich neue Ansätze eingebracht wurden. Nanite ist für mich, neben realistischer Beleuchtung, die vielversprechendste Neuerung. Da kann die Grafik noch so toll sein, wenn alle 10m irgendwas aufploppt isses halt wieder nen Videospiel.
 

Lichtspieler2000

Freizeitschrauber(in)
Sorry, die Autokorrektur, es sollte ausreichend "erklärt" heißen, will sagen, die Gerüchte (doppelte Shader und höherer Takt bei besserer Fertigung) liefern genug Anhaltspunkte um den Mehrverbrauch zu erklären
Nachdem das Whitepaper nun draußen ist, ist die verfünffach der theoretischen Leistung bei Matrixoperationein sicher nicht von alleine passiert, sondern aufgrund deutlich Änderungen an der Grafikpipeline.
Schade, denn dann lässt du nahezu alle Gerüchte die teilweise von verschiedensten Quellen stammen außer Acht.
Gerüchte beachte ich mangels Zeit nicht mehr. Da hast du einen Punkt.
 

Infi1337

Freizeitschrauber(in)
Vorsicht bei solchen Aussagen, denn FP32 TFlops haben nichts mit "Schnelligkeit" in FPS gemessen zu tun.

TFlops sind "Floating Point Operations Per Second", also übersetzt "Gleitkomma-Operationen pro Sekunde". Das ist nur ein bestimmter Teil von Berechnungen, wie man sie größtenteils in sondierten GPGPU-Aufgaben findet.

Beim Spielen macht das wenig Unterschied. Dort sind die geometrischen Einheiten inklusive der spezialisierten Hardwarebereiche zuständig.


AMD hat auch lange Zeit für Gaming nutzloses FP64 mitgeschleppt, weil man sich viele Jahre keine geteilte Entwicklung für Gaming / Profi leisten konnte. Der Verbrauch war entsprechend höher bei den Radeons.


Es gibt keinen Sieg! Weder für Nvidia noch für AMD.
Das sind die üblichen Fanboykriege hier im Forum.


Nein, Vega hatte noch mehr FP64-Einheiten verbaut. Die hatte AMD zum Großteil mit Navi und danach RDNA² gestrichen und die Chipfläche für spielerelevante Einheiten ersetzt. Daher kam auch die Leistung!

Deine 20% Mehrleistung sind genau dieser Unterschied. Beim Treiber hat sich auch einiges getan! Stellenweise wurden Featues nachgereicht, die Nvidia seit Maxwell besser beherrscht. Aus dem Kopf kann ich da "Delta colour compression" und "Culling". Das zusammen komplett überarbeiteten Grafikpipeline unter anderem.

Kurz gesagt:
-AMD hatte in dieser Zeit die Hausaufgaben endlich gemacht.

Mit TFlops hat das rein garnichts zu tun!


Wie kommt ihr immer darauf, dass man eine 5-6 Jahre alte Architektur immer weiter optimieren kann? Irgendwann ist einfach Schluss!

Pascal ist schlicht in die Jahre gekommen. Der Architektur fehlen sowohl die neuen Hardwareeinheiten sowie unterstützung für neuartige DX12-Features. Je mehr diese aber zum Einsatz kommen, desto weiter fällt die 1080 Ti zurück. Das ist auch logisch!

Man kann nichts optimieren, das nicht vorhanden ist!
Natürlich steht FP32 in etwa für die Leistung die beim klassischen Raster in 3D Anwendungen zu erwarten sind :what:, inklusive Vulkan DX12 etc.. Die Radeons haben auch keinen höheren Verbrauch weil man mehr FP64 Einheiten mitschleppt, das tun sie auch bei den FP32 eigentlich immer das Mitschleppen.

Daher auch der mixed precision Ansatz seitens Nvidia's ohne diesen könnte man im monolitischen Design gar nicht diese Art Leistung bringen, bzw. würde auch nicht DLSS etc.pp pushen.
 

Haxtible

PC-Selbstbauer(in)
Mir wurst wofür die fp 32 stehen ,denn 600 watt ist ne Ansage wo ich lache nur drüber da es absolut in die Intel richtung geht mit brechstange .Und 900Watt :-) geil .Sorry das ist nur bescheuert :-) :-)ohne mich
 

DARPA

Volt-Modder(in)
Aber nochmal b2t, in der tollen Tabelle steht, dass Nvidia N4P nutzen wird? Ist das so?
GH100 (und somit eventuell auch AD102) wird in TSMC 4N gebaut. Beachte, das N steht in diesem Fall hinter der Zahl! Das sagt erstmal nur, dass es ein für nV angepasster 4 nm Node ist. Genaue Parameter sind aber bisher nicht bekannt.
Allgemein ist TSMC N4 aber auch nur ein kleines Upgrade zu N5 bzw. N5P.

Neben der Anzahl der (FP32)-ALUs ist vorallem die Ausgestaltung der Kontrolllogik entscheidend, wie gut die Leistung skaliert.
 

twack3r

Software-Overclocker(in)
GH100 (und somit eventuell auch AD102) wird in TSMC 4N gebaut. Beachte, das N steht in diesem Fall hinter der Zahl! Das sagt erstmal nur, dass es ein für nV angepasster 4 nm Node ist.

Bist Du Dir da sicher?

Ich dachte, dass sein ein für Nvidia optimierter 5nm Node.
 

Haxtible

PC-Selbstbauer(in)
Als nächstes bauen wir ein mini Atomreaktor rein weil intel und NV sagen muss sein!LOL
Hier wird halt echt wiedermals die Brechstange die Poleposition sein ,kann ja nicht sein das man den scheiß noch kauft .Mit effizienz hat das schon lange nix mehr zu tun !Lieber 1-3 % weniger Leistung aber dafür kein Atomreaktor im Rechner !!!!
Sag ja guter kauf die 6900xt bei 250 watt ,wenn ich daran denke die 3090 mit 450 nö thx ich lasse jeden den Vortritt um eine 3090 zu ergattern ,sry manche hier nehmen es ganz genau dacher es sind 256 Watt !:-)
 
Zuletzt bearbeitet:

twack3r

Software-Overclocker(in)
Nachdem das Whitepaper nun draußen ist,
Hast Du das Whitepaper gelesen?

Ich frage, weil ich jetzt ein paar mal Kommentare aufgeschnappt habe, die besagen, dass die 'Hopper-Sauce' die Jensen laut Leaker in AD hat einfließen lassen der Umstand sein könnte, dass FP32 und Integer Berechnungen parallel absolviert werden könnten. D.h. neben einer Verdoppelung der Kerne pro SM könnten die 'Bonus-Kerne' deutlich weniger limitiert als in ihrer Ampere Ausprägung sein, ähnlich wie von Turing zu Ampere..

Steht dazu was im White Paper?
 

Yoshi

Komplett-PC-Käufer(in)
Na und, und wenn es 2000 Terraflops sind, wer braucht sowas. Die Strom- und Anschaffungskosten sind absolut nicht akzeptabel.
Als nächstes bauen wir ein mini Atomreaktor rein weil intel und NV sagen muss sein!LOL
Hier wird halt echt wiedermals die Brechstange die Poleposition sein ,kann ja nicht sein das man den scheiß noch kauft .Mit effizienz hat das schon lange nix mehr zu tun !Lieber 1-3 % weniger Leistung aber dafür kein Atomreaktor im Rechner !!!!
Sag ja guter kauf die 6900xt bei 250 watt ,wenn ich daran denke die 3090 mit 450 nö thx ich lasse jeden den Vortritt um eine 3090 zu ergattern ,sry manche hier nehmen es ganz genau dacher es sind 256 Watt !:-)
Wie Recht du hast !Mir ist der Spass am Aufrüsten schon lange vergangen :daumen:
 

number_eight_burp

Freizeitschrauber(in)
Bleibt mal locker, nur weil das Ding jetzt 100 Terraflops haben soll, heißt es noch lange nicht das die über 100% schneller sein wird. Eine 2080ti hatte 14 Terraflops und die 3090 dann 40. Die 3090 war am Ende dann je nach Auflösung 40-60% schneller.
 

gerX7a

BIOS-Overclocker(in)
Bist Du Dir da sicher?

Ich dachte, dass sein ein für Nvidia optimierter 5nm Node.
Die genannten Prozesse gehören alle bei TSMC zur "5nm-Klasse", konkret:
N5 > N5P > N4 > N4P
Den nächsten Full-Node-Entwicklungsschritt repräsentiert der N3 bei TSMC.

Problematisch wird es aber zum Spekulatius für Lovelace, denn aktuell ist lediglich bekannt und gesichert, dass nVidia den "4N" genannten semi-custom-Prozess (zweifellos aber nur geringfügige Anpassungen im Vergleich zum Standardportfolio) für Hopper, also das Datacenterprodukt nutzt.
Das zweite Problem ist, dass nVidia die Prozessbasis "ihres 4N" meines Wissens nach nicht preisgegeben hat und absehbar auch daran kein Interesse haben wird, d. h. man weiß nicht ob der auf dem älteren N4 oder dem aktuelleren N4P basiert. Entsprechend sollte man davon absehen derartig zu lesende "Konkretisierungen" aktuell für bare Münze zu nehmen und entsprechend liest man auch viele widersprüchliche Angaben in abhängigkeit der Quellen.
Aktuell kann man bestenfalls annehmen, dass wenn nVidia die voranstehende "4" nicht aus der Luft gegriffen hat, die Basis der N4 oder bestenfalls der N4P darstellen wird, gesichert jedoch nur für Hopper. Ob nVidia den teueren Prozess auch für Lovelace nutzen wird, vermutetet man dagegen bisher nur.

*) Bei Turing's 16 nm-Ableger "12FFN" kennt man die Basis nur deshalb, weil es damals von TSMC nur den 12FFC als infrage kommende Variante gab, TSMCs vierte 16nm-Iteration, bei der TSMC schließich überraschend mit einer "12" vorne weg aufwartete, um sich besser gegen Samsung und GloFo positionieren zu können.

**) Für AMDs RDNA3 kann man als Basis mindestens den N5P vermuten, flankiert vom N6 für einige Chiplets wie I/O. Beziehungsweise konkret, da AMD schon die Werbetrommel rührend von einem "HPC-optimiertem 5 nm-Node" sprach auch vom N5HPC, der in 2Q22 in die Volumenproduktion überführt werden soll, eine weitere Spezialisierung des gereiften N5 mit kompatiblen Design Rules.

[...] Kann Nvidias nächste Generation parallel FP32 und INT berechnen, ist der TF Vergleich hinfällig.
Das kann eine gute Erklärung für den steigenden Energieverbrauch sein.
Hast Du das Whitepaper gelesen?

[...] der Umstand sein könnte, dass FP32 und Integer Berechnungen parallel absolviert werden könnten. [...]
Bereits Turing kann INT32 und FP32 parallel berechnen. Während in vorherigen Gen's FP32-Cores verwendet wurden, die optional in einem INT32-Modus operieren konnten, spendierte man Turing zu den 64 FP32-Cores pro SM zusätzlich 64 dedizierte INT32-Cores (zählte aber die Kombination eines FP32- und eines INT32-Cores als einen CUDA-Core).
Mit Ampere ging man einen Schritt weiter und ersetzte die mit Turing eingeführten dedizierten INT32-Cores durch Multi-Mode-Cores, d. h. man hat hier nun pro SM 64 dedizierte FP32-Cores und 64 FP32/INT32-Cores, d. h. Ampere kann ebenso beides parallel berechnen oder aber im FP32 im Best Case den doppelten Durchsatz erzielen, was man vorranging unter Compute Workloads beobachten kann. In Games limitiert das Grafik-Backend, das natürlich nicht mal eben mitverdoppelt wurde.

Rein bezüglich FP32 sind keinen nennenswerten Änderungen bei Lovelace zu erwarten, jedenfalls wäre ich überrascht wenn doch.
Das Drumherum des SMs wie Datenpfade, Caches, etc. und des Render-Backend wird vielmehr der Ansatzpunkt für größere Verbesserungen sein.
Die aktuell spekulierten/kolportierten 100 TFlops FP32 resultieren schlicht aus einem Ampere-ähnlichen Aufbau mit zwei parallel arbeiteten FP32-Cores, in Summe angeblich 18432 (also +71 % ggü. dem GA102). Und hierfür benötigt man 2,715 GHz Takt um die spezifizierten 100 TFlops zu erreichen.
Man darf gespannt sein ob nVidia einen solchen Takt realisieren kann und dann natürlich bei welcher Verlustleistung.

Na und, und wenn es 2000 Terraflops sind, wer braucht sowas. [...]
nVidia braucht so was, denn deren Top-Chips bedienen gleichzeitig das professionelle Umfeld und die Industrie arbeitet hier größtenteils auf nVidia-Hardware.
nVidia muss insbesondere mit den beiden größten Chips den Spagat schaffen, dass sie zwecks optimierter Fertigung und Kosten den Consumer-Markt und den professionellen sowie Datacenter-Markt gleichermaßen gut bedienen können.

Ob man dagegen eine 400 W- oder gar 600 W-Karte in seinem PC zum Daddeln nutzen möchte, ist ein gänzlich anderes Thema und da niemand zum Kauf gezwungen wird auch keines, über das man sich wirklich streiten kann.
AMD und nVidia hatten 400 - 500 W GPUs schon Anfang des letzten Jahrzehntes im Markt und einige Hardcore'ler hatten auch damals schon kein Problem sich bspw. 2 x 220 W ins Gehäuse zu stecken.
Wenn die neuen HighEnd-Modelle der beiden Hersteller aber verlustleistungstechnisch derart zulegen, würde ich vorerst vermuten, dass sich der Markt verschieben wird und mehr Käufer anstatt kompromissloses HighEnd nun eher im unteren HighEnd oder gar oberen Mittelfeld kaufen werden.
Bei nVidia braucht man zu vermutenden Preissteigerungen wohl nichts explizit in den Raum zu stellen ;-) bei solch einer Leistung aber auch zu AMDs Topmodellen liest man immer wieder, dass auch die preislich signifikant zulegen sollen, was auch nicht wundern sollte, denn mit dem Chiplet-Design hat man dort den Yield zwar besser im Griff aber dafür wird das Packaging signifikant teuerer.
 
Zuletzt bearbeitet:

Quake2008

BIOS-Overclocker(in)
Ich finde das man die Vorhandene Leistung erstmal sinnvoll nutzen sollte. Das funktioniert an Konsolen recht gut. Auch die UE5 Demo zeigte auf de XBox SX und PS5 wohin die Reise gehen kann.

Am PC hat man doch jetzt schon mehr TF als auf Konsolen, aber vom selben Ergebnis ist man weit weg. Die Ports der Konsolen Exclusiv Titel zeigen was machbar ist.
 

eXquisite

BIOS-Overclocker(in)
Vorsicht bei solchen Aussagen, denn FP32 TFlops haben nichts mit "Schnelligkeit" in FPS gemessen zu tun.

TFlops sind "Floating Point Operations Per Second", also übersetzt "Gleitkomma-Operationen pro Sekunde". Das ist nur ein bestimmter Teil von Berechnungen, wie man sie größtenteils in sondierten GPGPU-Aufgaben findet.

Beim Spielen macht das wenig Unterschied. Dort sind die geometrischen Einheiten inklusive der spezialisierten Hardwarebereiche zuständig.


AMD hat auch lange Zeit für Gaming nutzloses FP64 mitgeschleppt, weil man sich viele Jahre keine geteilte Entwicklung für Gaming / Profi leisten konnte. Der Verbrauch war entsprechend höher bei den Radeons.


Es gibt keinen Sieg! Weder für Nvidia noch für AMD.
Das sind die üblichen Fanboykriege hier im Forum.


Nein, Vega hatte noch mehr FP64-Einheiten verbaut. Die hatte AMD zum Großteil mit Navi und danach RDNA² gestrichen und die Chipfläche für spielerelevante Einheiten ersetzt. Daher kam auch die Leistung!

Deine 20% Mehrleistung sind genau dieser Unterschied. Beim Treiber hat sich auch einiges getan! Stellenweise wurden Featues nachgereicht, die Nvidia seit Maxwell besser beherrscht. Aus dem Kopf kann ich da "Delta colour compression" und "Culling". Das zusammen komplett überarbeiteten Grafikpipeline unter anderem.

Kurz gesagt:
-AMD hatte in dieser Zeit die Hausaufgaben endlich gemacht.

Mit TFlops hat das rein garnichts zu tun!


Wie kommt ihr immer darauf, dass man eine 5-6 Jahre alte Architektur immer weiter optimieren kann? Irgendwann ist einfach Schluss!

Pascal ist schlicht in die Jahre gekommen. Der Architektur fehlen sowohl die neuen Hardwareeinheiten sowie unterstützung für neuartige DX12-Features. Je mehr diese aber zum Einsatz kommen, desto weiter fällt die 1080 Ti zurück. Das ist auch logisch!

Man kann nichts optimieren, das nicht vorhanden ist!

Das ist mir absolut klar, Pu244 aber anscheinend nicht.
Bei Vega vs 6600XT habe ich mich rein auf FP32 bezogen... schau da nochmal in die Werte rein.
Die "nutzlosen FP64" stimmt auch nur so halb, da diese in bestimmten Szenarien zwei FP32 Operationen ausführen können...
Das untere stimmt so auch nicht ganz.
 

MarcHammel

PC-Selbstbauer(in)
Mir ist durchaus bewußt, dass sehr viele Leute mit Konsolen zocken. Nur das Gejammer, dass der PC am Abgrund steht, da die Konsolen doch die viel bessere Alternative sind und die Leute jetzt reihenweise weglaufen, war vor 40 Jahren Blödsinn und das ist es bis heute.
Das hat doch überhaupt keiner behauptet und war doch nie Gegenstand eurer kleinen Debatte. :confused:
 

RyzA

PCGH-Community-Veteran(in)
Sag ja guter kauf die 6900xt bei 250 watt ,wenn ich daran denke die 3090 mit 450 nö thx ich lasse jeden den Vortritt um eine 3090 zu ergattern ,sry manche hier nehmen es ganz genau dacher es sind 256 Watt !:-)
Hast du deine Karte undervoltet?
Weil laut Tests nimmt sich die Karte (Referenz) 300W in Spielen. Die Custommodelle noch deutlich mehr.
 

Birdy84

Volt-Modder(in)
Wenn die neuen HighEnd-Modelle der beiden Hersteller aber verlustleistungstechnisch derart zulegen, würde ich vorerst vermuten, dass sich der Markt verschieben wird und mehr Käufer anstatt kompromissloses HighEnd nun eher im unteren HighEnd oder gar oberen Mittelfeld kaufen werden.
Das Marketing von Nv wird schon dafür sorgen, dass sich alle wohlfühlen. Da werden einfach neue Zahlen und Begriffe erfunden um eine (technisch) direkte Vergleichbarkeit zu Vorgängermodellen zu verschleiern. Schon ist der Pöbel zufrieden, solange eine spekulative 4080 "nur" 700€ kostet, auch wenn diese, von technischer Seite betrachtet, eigentlich anders heißen müsste.
 

derneuemann

BIOS-Overclocker(in)
Hast du deine Karte undervoltet?
Weil laut Tests nimmt sich die Karte (Referenz) 300W in Spielen. Die Custommodelle noch deutlich mehr.
Muss ja UV sein, denn der reale Verbrauch der 6900XT ohne OC liegt wirklich bei 300W, dazu meint er auf der grünen Seite, die 3090Ti und nicht die normale 3090. Diese verbraucht wie allgemein bekannt 350W.

UV geht immer und das dann auch bei beiden Herstellern.
Gibt Tests der 3090, das die bei 290W noch die Stock Leistung schafft. Selbst bei 240W verliert die 3090 keine 10 % an Leistung.
 
Oben Unten