AMD Sienna Cichlid: "Big Navi" mit 80 CUs und 5.120 Shadern?

Eben, das Problem ist inhärent du bekommt mit Turing KEINE wesentlich besser Ausalstung als das gesehen hin.
Mensch, das liegt aber nicht an Turing, sondern am Umstand, wie ICH priorisiere oder welche Auslastung ICH zu welchem Zeitpunkt auf die Einheiten lege.

Und so könnte ich natürlich einen künstlichen Workload erzeugen, der so wie Du es der Hardware absprichst zu gleichen Anteilen RT als auch FP und Int berechnet.

Nur wer sollte das tun und welcher Renderpipeline würde so eine "unsinnige" Rechen- und Powerbudgetverteilung nützen?

Der Programmiere, wenn er bei klarem Verstand ist, bestimmt hier schlicht nichts.
?? Wie denkst Du denn, dass Optimierungsmaßnahmen in den Produktionen durchgeführt werden, wenn der Programmierer nichts bestimmt?

Wie erklärst Du es Dir, dass ein Battlefield 5 mit RT Reflections deutlich weniger performant arbeitet als ein Wolfenstein Youngblood?
Weil der Programmierer "wenn er bei klarem Verstand ist" hier nichts bestimmt?

Was soll er denn machen? Die RT Core Arbeiten stückeln? Geht schlicht nicht. wenn du die RT Cores nutzt, dann in einem rutsch sonnst stimmt mit deinem Algorithmus etwas nicht und es wird zu teuer.
Wieso sollte ich das BVH- Traversal auch nicht in einem Rutsch durchführen? Da die Verarbeitung async/parallel stattfinden kann, ist ja dadurch nichts verloren (obwohl Du es immer so darstellst),
1/10 Framtime machen ~90% der Shader schlicht nichts oder anderst rum, 9/10 FrameTime machen die RT Cores schlicht nichts.
OK- Du bestätigst Deine Sehschäche offensichtlich.

Lass mal nsight bei diversen Titeln mitlaufen und schau Dir die Messchriebe an. Vorher brauchen wir hier denke ich nicht mehr weiterdiskutieren.

Und das man DXR auch ohne dezidierte FF beschleunigen kann sieht man ja selbst an Pascal VS Turing (ohne RT). Selbst das geschönte DLSS+RT Farme hilft da nicht.
Ja- Also genau das, was nvidia auch immer offen kommuniziert hat. Du kannst immer alle fixed- function- Einheiten auch Softwareemulieren oder auf komplexen, universellen Einheiten abbilden.
Nur sind die halt dann langsamer. Spezialisierte, fest verdrahtete Schaltungen für immer wiederkehrende Berechnungen sind nunmal einfach schneller, effizienter.
Sonst würde man sie nicht verbauen.

Nach Deiner Theorie sind dann auch GPUs überflüssig, da man alles auch über den CISC- Prozessor problemfrei berechnen kann?
 
Zuletzt bearbeitet:
Lies Dir meinen Text durch und versuche nochmal ihn zu verstehen.
Ja lies dir deinen Text mal durch und finde den Fehler selbst, natürlich ginge es parallel, aber dann würde schon Turing deutlich mehr verbrauchen und unter 12nm hätte Nvidia ein riesen Problem. Nämlich mit der Voltage, entweder die Haltbarkeit leidet (5Jahre) oder der Verbrauch explodiert. Der Sweetspot von FF(N) lag bei um 0,75 und da ist man weit drüber würde ich behaupten.

Ich habe es schon mal geschrieben, *tu** schreiben hier immer nur ein paar, immer wieder. Schmeiß einfach mal RTX Voice an und sieh dir an, was allein die Tensorcores für so eine einfache AI brauchen, 60W inklusvie aller Verluste?, und dann rechne mal alles andere dazu, wo willst du da rauskommen?

In ein so großes Design kannst du nicht reinprügeln wie du willst. Genau das ist auch eins der Probleme. Cuda und RT wird aus einer Schiene versorgt und wenn alle Einheiten rechnen müssten, geht dem bei einem Droop die Luft aus und dann wird es schnell dunkel. Das ist so, als wenn du mit einem Hammer ständig auf Metall einprügelst. Wenn man sich dann noch anschaut wo die Cores in Design angeordnet liegen, wird einem einiges klar. Vermutlich wird Ampere daher 250W allein für die GPU brauchen und ein Redesign sein.

Übrigens machen sich Gerüchte breit, dass die Partner Probleme mit der Basic Kit bekommen könnten und es wegen der Energiedichte kaum gekühlt bekommen. Thermi lässt grüßen.
 
Ja lies dir deinen Text mal durch und finde den Fehler selbst, natürlich ginge es parallel, aber dann würde schon Turing deutlich mehr verbrauchen und unter 12nm hätte Nvidia ein riesen Problem. Nämlich mit der Voltage, entweder die Haltbarkeit leidet (5Jahre) oder der Verbrauch explodiert.
Genau- Du bezichtigst mich eines Fehlers, nur um dann genau das gleiche zu schreiben wie ich, oder hatte ich jetzt nicht inzwischen schon 2x darauf hingewiesen, dass bei den Berechnungen und Auslastungen auch das Powerbudget im Blick behalten werden muss und ein Wörtchen mitzureden hat?

Schmeiß einfach mal RTX Voice an und sieh dir an, was allein die Tensorcores für so eine einfache AI brauchen, 60W inklusvie aller Verluste?, und dann rechne mal alles andere dazu, wo willst du da rauskommen?
Hab ich nicht installiert, kann ich mir aber gerne mal ansehen. Interessant wäre dann der Vergleich, wie hoch der Verbrauch dafür bei non- RTX Karten liegt.

Cuda und RT wird aus einer Schiene versorgt und wenn alle Einheiten rechnen müssten, geht dem bei einem Droop die Luft aus und dann wird es schnell dunkel.
Das Thema hat ja Igor schon bis zum Erbrechen geritten. Und Gerüchtehalber eleminiert man beim Nachfolger etwaige Engpässe.

Übrigens machen sich Gerüchte breit, dass die Partner Probleme mit der Basic Kit bekommen könnten und es wegen der Energiedichte kaum gekühlt bekommen. Thermi lässt grüßen.
Naja- Letztenendes geht allen Designs auf Silizium- Basis langsam die Luft aus. Werden halt doch nur ein Haufen Transistoren geschalten. Und die brauchen mehr Strom, je mehr davon geschalten werden und je schneller dies passiert.

Durch Reduktion der Fläche und der Leckströme kann man zwar die Spannung wieder etwas verringern, das fängt aber inzwischen die Takt- Exzesse der Hersteller nicht mehr auf.
Somit hat man eine immer höhere Hitzedichte bzw. schwer zu kontrollierende Hotspots.
 
Zuletzt bearbeitet:
Genau- Du bezichtigst mich eines Fehlers, nur um dann genau das gleiche zu schreiben wie ich, oder hatte ich jetzt nicht inzwischen schon 2x darauf hingewiesen, dass bei den Berechnungen und Auslastungen auch das Powerbudget im Blick behalten werden muss und ein Wörtchen mitzureden hat.
Ich bezichtige dich in dem Fall gar nichts, aber wem die Schuhe passen zieht sie sich an.

Es geht um Logik zerozerp, worüber wir auch schon mal diskutiert haben. Du sprichst dann theoretische Möglichkeiten an, die bisher in der Praxis nicht angewendet oder umgesetzt werden können. Willst aber auf dessen Basis eine Grundsatzdiskussion um für und wieder führen. Genau darum geht es, theoretisch fliegen wir auch zum Mars und latschen irgendwann darauf wie auf dem Mond umher, nur praktisch kann das noch 1 Jahrhundert dauern.

In dem Fall verwechselt du dann berechtigte Hinweise, als grundlose Kritik an einem Innovativmodell. Ist sie aber nicht, Nvidia hat das genauso beschrieben, die RTX OPs können vorerst nur mit einem bestimmten Prozentsatz auf eine Szene übertragen werden, der je nach Rechenlast völlig unterschiedlich ausfallen kann. Zumal fixed Function in dem diskutierten Beispiel ziemlich beschränkt bleibt oder für was kannst du RT Cores noch gebrauchen? Für RT und dann?

Es ist eigentlich das, was man die letzten Jahre völlig anders gemacht hat, nämlich unnützen Ballast im Gamingbereich abzuwerfen, zu entschlacken und ein Design frei programmierbar ziemlich universell (universeller) auszulegen, dass wirft man jetzt für RTX über den Haufen und verlangt im gleichen Atemzug das alle auf diesen Zug aufspringen? Microsoft verlangt das aber nicht. Fixed Function bleibt im dem Fall eine starre Pipeline, die für nicht weiter gebraucht werden kann als Kreuzungstest. Wenn ich die aber nicht brauche, schleppe ich einen Haufen Ballast mit mir umher.

Glaubs mir, die RT Cores werden auf Dauer wieder verschwinden, weil fixed Function zu unflexibel ist. Tensor spielt dabei eine wesentlichere Rolle.
Genauso ist es unter Vulkan, Nvidias Ansatz ist dort dediziert, nicht auf andere übertragbar.

Wenn sich Kaliber wie Epic über RTX beschweren, es als "Blackbox" bezeichnen, hat das schon eine grundlegende Bedeutung, egal wie viel Leistung Nvidia oben drauf packt.
 
Zuletzt bearbeitet von einem Moderator:
Du sprichst dann theoretische Möglichkeiten an, die bisher in der Praxis nicht angewendet oder umgesetzt werden können.
Du irrst Dich. In diesem Falle wurde unterstellt, dass die RT Cores nicht parallel zu den Cuda Cores/Shadern betrieben werden können.

Und trotz Beispielen und sogar Beweisen wird es weiterhin geleugnet.

Genau darum geht es, theoretisch fliegen wir auch zum Mars und latschen irgendwann darauf wie auf dem Mond umher, nur praktisch kann das noch 1 Jahrhundert dauern.
Ich zettel hier garnichts an. Im Gegenteil habe ich in meinen Ausführungen immer darauf hingewiesen, dass es in der Praxis bei den Ansprüchen an eine Renderpipeline das Szenario, was hier als essenziell wichtig beschrieben wird, überhaupt nicht relevant ist.
Sein Einwurf lässt sich herunterbrechen auf: Wenn nicht alle Einheiten gleichzeitig voll ausgelastet werden, dann verschenkt man Leistung.

Derjenige der sowas schreibt, hat leider die einfachsten Grundzüge davon nicht verstanden, wie Computer und Programme funktionieren.

Ist sie aber nicht, Nvidia hat das genauso beschrieben, die RTX OPs können vorerst nur mit einem bestimmten Prozentsatz auf eine Szene übertragen werden, der je nach Rechenlast völlig unterschiedlich ausfallen kann.
Du kannst es auch immer zu 100% auf eine Szene übertragen (Quake2, Minecraft RTX). Ist dann nur die Frage, wie es mit der Performance aussieht.

Zumal fixed Function in dem diskutierten Beispiel ziemlich beschränkt bleibt oder für was kannst du RT Cores noch gebrauchen? Für RT und dann?
...was wiederum das Wesen von fixed function beschreibt.
Oder wirfst du den En- Decodingeinheiten auf den CPUs/GPUs vor, dass sie unwichtig seien, weil sie ja sonst keinen Zweck erfüllten?
 
Du bist so drollig, deine Logik hätte ich gerne. Es gibt keine 1,5fps nur soviel dazu, Bilder sind ein Ganzes.
 
Du schreibst so viel mit "hätte wäre wenn" das ist doch alles stuss.
Bei allen RT Games sieht das FrameBild in etwa so aus wie das gezeigte Beispiel (DLSS mal außen vor gelassen). RT Cores werden pro Frame EINMAL "in einem klumpen" angesprochen! Und das ist so, weil die Programmierer bei klarem verstand sind, es macht anderst schlicht keinen sinn. Man kann Turing RT Cores schlicht nicht anständig asynchron nutzen. Mach dir das bitte einmal klar.
Dies führt nun dazu, dass du fläche per see verschwendest (1/10 FrameTime Shader UND 9/10 FrameTime RT Cores) sie sind in der Zeit schlicht nutzlos.

Selbst wenn RDNA2 nun 2/10 oder gar 4/10 FrameTime für DXR braucht, ist davon aus zu gehen, dass sie dies bei den 8/10 bzw 6/10 wieder raus holen können. Alleine schon da hier Async Compute wirken kann, weil hier der Programmierere bestimmt WAS WANN WIEVIEL für DXR genuzt wird, bei Turing ist das schlicht nicht möglich (zumindest bei klaren Verstand).

Oder andersrum, zeig mir eine RT Implementierung deren FrameBild wesentlich von dem Beispiel abweicht. Du wirst keine finden, denn es wäre schlicht stuss.
 
Einfacher, im Gegensatz zu deiner Logik (lieber espacko), kann ein programmierbarer Shader kein fixed Function sein, oder doch? Letztlich kann eine shaderbasirende API viel komplexere Renderingtechniken zulassen und lässt Platz für allerlei Ideen. Das Nvidia das nicht möchte, ist ja aus der Vergangenheit schon bekannt. Sie wollen halt, dass man ihnen ihr Modell (zu einem gewissen Preis) abkauft.

Fragt sich nur ob das alle wollen, so wies es aussieht eher nicht.
 
Habe ich ehrlich gesagt bis jetzt nicht verstanden, was ist an der Leistung +15 bis 20% zur 2080ti nicht ausreichend? Keine Ahnung was da wieder erwartet wird, seht euch doch bitte mal die Balken im jetzigen Vergleich an.

Ist doch die Frage, ob Hersteller wie Nvidia, AMD oder Intel immer gleich die Käufer von Lastgen ansprechen oder eher doch, wo es noch länger her ist? 980ti oder 1080ti?

2080ti Leistung für 700-800? Warum nicht. Weniger ist besser.
 
Habe ich ehrlich gesagt bis jetzt nicht verstanden, was ist an der Leistung +15 bis 20% zur 2080ti nicht ausreichend? Keine Ahnung was da wieder erwartet wird, seht euch doch bitte mal die Balken im jetzigen Vergleich an.

Ist doch die Frage, ob Hersteller wie Nvidia, AMD oder Intel immer gleich die Käufer von Lastgen ansprechen oder eher doch, wo es noch länger her ist? 980ti oder 1080ti?

2080ti Leistung für 700-800? Warum nicht. Weniger ist besser.
Das Problem ist das manche Leute endlich 4k mit ca 100fps durchgehend haben wollen. Es gibt ja auch Monitore die 4k mit 144hz haben.

Einfach gesagt schöne highend Grafik mit genug Fps.



Gesendet von meinem D6603 mit Tapatalk
 
Oder andersrum, zeig mir eine RT Implementierung deren FrameBild wesentlich von dem Beispiel abweicht. Du wirst keine finden, denn es wäre schlicht stuss.

Auch wenn ich inzwischen denke, dass Du uns in gewisser Weise auf den Arm nehmen willst. Vielleicht interessierts aber die Allgemeinheit.

Hier ein älterer Schrieb von mir von Control:
https://s19.directupload.net/images/200220/g5uyixu8.jpg

Wobei ich mir fast sicher bin, dass Du erstens sowieso nichts damit anzufangen weisst und zweitens dass Du es eh nicht nachprüfen wirst, bzw. Dir mal selbst ein Bild machst und Dir ansiehst, was wann auf den GPUs passiert.

Du hast bis jetzt einfach 0,0 geliefert.
 
Einfach gesagt schöne highend Grafik mit genug Fps.
Naja, so wie ich das verstanden habe gibt es nur sehr Wenige die sich an der Bildqualität des AI Upscaling DLSS im Leistungsprofil stören, denke das schafft die 3080 dann mit DLSS v3, wenn nicht sogar schon heute. Ob AMD dem auf Dauer etwas entgegensetzen muss, liegt ja auch daran ob es sich durchsetzt.

Letztlich ist auch die Schnittstelle für UHD@120Hz ein wichtiges Muss.
 
Was ist also besser? 1/10 der Zeit ungenutzte Shader oder 14-fache RT-Berechnungszeit?
Nur wenn RDNA2 in DXR so lagsam wie Turing(ohne RT) ist.
Sehr steile Thesen. Also AMD hat die Quadratur des Kreises gefunden, um 40% längere Frametimes durch RT-Berechnungen wieder rein zu gekommen? Da müssten die ja heute schon Kreise um Turing fahren, wenn die so viel schneller die restlichen Jobs abarbeiten :lol:
Das steht da nicht. Eigentlich wurde auch nichts über die Tatsäzliche FrameTime geschieben, es wurde nur das verhältnis RT/DXR VS "Shader" mit X/10 (ausgehend von Turing RT) verglichen. Klar, verstehst du nicht.


Moment! Wenn Async Compute bei DXR wirken kann, dann wird DXR ja doch über die normalen Shader berechnet?

Defeniere "normaler Shader". Da du aber NUR Pascal Shader als Shader gegen Truing RT Cores Vergleichen willst ist das schonmal stuss.
Nochmal: RDNA2 wird RT schneller rechnen als Pascal, da bringen deine XX Fache Beschleunigung durch FF schlicht nichts. Oder wie schnell wird RDNA2?

Dem hattest du hier noch vehement widersprochen. Jetzt also doch DXR auf den Shadern bei RDNA2? Was soll es denn jetzt sein?
Siehe oben, du bist nicht fähig zu differenzieren.

Im Falle von RT eben Faktor 28. Den kann man eben - bei heutiger Performance - nicht eingehen für Echtzeitfähigkeit (=Gaming). Und eben auch die nächsten 5 - 10 Jahre nicht. Der Sprung vom getrennten Pixel- und Vertexshader hin zum heutigen Universalshader hat auch 5-10 Jahre gedauert.
Faktor 28 zu was? Wie wäre der Faktor bei RDNA2??? Denke doch bitte mal nach.

Warum sonst wird AMD wohl auch FF-Logik für RT einbauen?
Ist Definitionssache. Wieviel "Unified - Shader" beibt den Shadern bei nutzung der CU mit DXR?
 
Es sollte nicht nur in mehr Leistung geforscht werden, sondern auch in bessere Kühllösungen. Die Wärmeentwicklung von Hunderten von Watt unter Luft abzuführen muss im Jahr 2020 doch besser gelingen ?! Vielleicht überrascht uns AMD mit einer Revolution bei der Kühlung.
 
Es geht eher schlechter als besser.
Die Chipfläche wird immer kleiner bei gleichbleibender abzuführender Wärme.
 
Das Problem ist das manche Leute endlich 4k mit ca 100fps durchgehend haben wollen. Es gibt ja auch Monitore die 4k mit 144hz haben.

Einfach gesagt schöne highend Grafik mit genug Fps.



Gesendet von meinem D6603 mit Tapatalk

Das kriegst Du auch bei Nvidia diese Generation und nächste nicht. Der Vorteil von AMD wird der ordentlich VRAM-Ausbau sein, der die Karte viel länger nutzbar machen wird. 16GB>>>10GB
 
Die Gerüchte der letzten zeit (auf beiden seiten) klingen ja teilweise wirklich spannend, bin schon gespannt auf die neuen Karten.

Ich frage mich allerdings jetzt schon, welche Karte bei mir das rennen machen wird. Denn angenommen die AMD Top Karte ist gute 20% schneller als eine RTX3080TI/3090:

AMD schafft das neue "Spiel X" in UHD+RT mit 70fps während Nvidia es mit 100fps UHD@DLSS+RT schafft.

Tja was dann? Meine einzige DLSS Erfahrung ist Control doch das hat mir schon gut gefallen. Sollte es eine per Treiber zuschaltbare DLSS lösung geben dann werde ich, stand jetzt, zur Nvidia greifen. Für AMD würde allerdings sprechen das sie bei alten spielen und bei spielen die kein DLSS unterstützen (und es auch keine treiberlösung gibt) schneller wären. Und alleine schon wegen der alten spiele wären das am ende mehr spiele die schneller auf AMD laufen.

Ich spiele nun mal vorwiegend ältere spiele, mein neustes (glaub ich) war Darksiders 3* aber nur wegen Darksiders 1 und 2 vorher. Also sollte die AMD Karte schneller sein als die Nvidia Top Karte dann würde ich also doch eher zur AMD greifen. Naja erstmal Tests abwarten, Stromverbrauch, Temperatur, Lautstärke, Leistung und Featureset werden dann schon (hoffentlich) die Entscheidung für mich fällen.

Schönen start in die Woche... :daumen:

*Wegen Darksiders 3 nochmal: Man ließt ja öfter das DLSS kritisiert wird wegen der "Bildfehler" die es hier und da ja geben soll und man deshalb eher nativ bevorzugt. Naja, Darksiders 3 (alles auf Ultra) sieht ziemlich übel aus. TXAA vermatscht das komplette bild (in 1440p, "r.Tonemapper.Sharpen" stand schon auf 1) und die ränder der Arena in der "Feuerprobe" zum beispiel, flackern massiv. Der "Löcherschatten" der aussieht wie ein Quake 2 Schatten im Software renderer (wenn man TXAA runterschaltet) ist schlicht hässlich. Was ich damit sagen will: Auch Nativ hat ab und an "Bildfehler", schlimmer als das kann DLSS auch nicht sein.
 
Du schreibst mal wieder viel blabla ...

Wann eine FF auch wirklich FIXED ist kann man theoretisch 100% zweifelsfrei mit der defenition bestimmen.
Nur ist dies "im wirklichem Leben" eben nicht immer so 100% zweifelsfrei zu bestimmen. Selbst unified shader bestehen (runtergebrochen) ledeglich aus FF, die sich die ganze Infrastruktur schlicht teilen. Hast du zb 2 "FIXED Funktion" zwischen denen man über die Infrastruktur zu laufzeit entscheiden kann welche zu nutzen ist, dann sind diese "FIXED Funktion" je nach definition eben nicht mehr so "FIXED". Und eben diese "definitions" Entscheidung wird bestimmen ob DRNA2s DRX Implementierung "FIXED" ist oder eben nicht.
Was bei nvidias RT zweifelsfrei feststeht, die RT-Cores sind FIXED, mit allen nachteilen die sich daraus ergeben.
 
Das Hauptargument für mich bei den AMD Karten war das Preis/Leistungsverhältnis. Und ich war bisher immer zufrieden mit den AMD Karten.
Sollten die neuen Karten auf 2080 Ti Niveau sein für einen AMD typischen Preis, dann ist das für mich ein Kaufgrund.
Grafikkarten die mehr als 1.500€ kosten sind doch komplett dekadent, zumal das Raytracing bei den 2000er RTX Karten auch mehr Deko als Feature ist wie anhand der Watch Dogs Legion Demo (2080 Ti zu schwach) und diversen Cyberpunk Gerüchten zu sehen ist.

Nvidia entwickelt Klasse Karten, das ist nicht zu bestreiten, aber solange die auf Apple Niveau ihre Preise kalkulieren sind die für mich einfach raus.
 
Zurück