AMD Sienna Cichlid: "Big Navi" mit 80 CUs und 5.120 Shadern?

Wer sagt denn, dass RDNA2 mit Big Navi nicht tatsächlich das ist was Zen 2 war?Das Schlüsselwort heißt reduzierte Komplexität und der Sprung zu RDNA 2 ist vielleicht tatsächlich der Gleiche wie von GCN zu RDNA1! Vorausgesetzt die XSX GPU ist auf 2080 Ti Niveau, trifft aber nur bei tatsächlich + 25 % IPC zu, dann wird Big Navi auch für die Größte der Ampere Ableger ein verdammt harter Brocken ! Vorausgesetzt die Skalierung ist von 2560 Shader auf 3584 so, dann ist auch 5120 Shader + 50%!Ergo gehe ich davon aus, dass unter den getätigten Annahmen ein RTX 3080 Super sehr schnell kommen wird!

Und wieso erzählst du mir das?
 
Quizfrage, damit du endlich deinen Denkfehler verstehst: Wie viel Anteil an der Frametime haben die RT-Berchnungen, wenn die RT-Workload um den Faktor 5, 10 oder 20 ansteigt, die RT-Einheiten aber immer noch die identische Rechenleistung?

Und genau das - steigende RT-Workload - ist zu erwarten in Zukunft.
Er ist jetzt im schnitt bei 1/10 (grob!)und er MUSS kleiner werden, niemand ist wirklich mit dem jetzigem FPS drop zufrieden.
Bei AMDs DXR ansatz kann er aber durchaus auch 2/10 sein, wenn sie die Zeit bei den 8/10 wieder reinholen.
 
Du verstehst es schlicht nicht.

Ignorier ihn einfach: DirectX Raytracing (DXR) Functional Spec | DirectX-Specs

Um eine Invokation zu vermeiden, werden eben nicht zig Durchläufe ausgeführt. Es redet gerne von der Performance ohne Intersectionsshader, aber Microsoft gibt in dem Fall überhaupt keine Raytracingpipeline vor, um DXR auszuführen. Man kann sich beider Modelle bedienen. Es braucht dafür keine fixed Funktionseinheit, sie wird aber auch nicht ausgeschlossen (das habe ich auch schon zig mal hier wiederholt).

Man hat dabei beide Ansätze berücksichtigt, was ich sehr positiv finde.
 
Zuletzt bearbeitet von einem Moderator:
Um, Algo, hast Du die Artikel überhaupt gelesen (bzw. die Videos angesehen), die Du da verlinkst? Die haben nichts mit dem zu tun, was in dem oben von Dir geposteten Video behauptet wird, oder widerlegen sie geradezu. Abgesehen davon, dass hier von 2080Ti die Rede ist, die erst viel später als dieses Video released worden sind.

Unterüberschrift aus dem PCGH Artikel:

"Nach der Untersuchung weiterer defekter RTX 2080 Ti-Grafikkarten kommt Gamers Nexus zu dem Schluss, dass diese vermutlich Beschädigungen in den Bauteilen beziehungsweise dem PCB haben. Gründe wie eine Überhitzung des VRAMs oder Softwarefehler werden ausgeschlossen. Zumindest scheinen die Hardware-Defekte selten zu sein."

Was willst Du uns damit also sagen? Du bringst hier irgendetwas um eine Behauptung zu stützen, die in keinerlei Zusammenhang damit steht. Sollen das Nebelkerzen sein?
(...)

*Seufz* ... na gut ich seh schon ... hat wenig Sinn mit dir zu diskutieren, aber ein letzter Kommentar von mir:
Im Video von AdoredTV ging es nicht nur um fehlerhafte Nvidia-Treiber, sondern auch um Hardwaredefekte wie sich selbst auslötende Grafikchips. Stichwort Bumpgate. Schon mal überlegt/gewundert warum Apple keinerlei Nvidia-Hardware mehr verbaut? ... Bingo wegen Bumpgate.
Und deshalb ist auch das Artefakt Problem der RTX Karten durchaus relevant. Aber gut ... glaub du was du willst ... mehr wie auf solche Sachen hinweisen kann ich nicht. Kann ja dann jeder seine Schlüsse daraus ziehen.
 
*Seufz* ... na gut ich seh schon ... hat wenig Sinn mit dir zu diskutieren, aber ein letzter Kommentar von mir:
Im Video von AdoredTV ging es nicht nur um fehlerhafte Nvidia-Treiber, sondern auch um Hardwaredefekte wie sich selbst auslötende Grafikchips. Stichwort Bumpgate. Schon mal überlegt/gewundert warum Apple keinerlei Nvidia-Hardware mehr verbaut? ... Bingo wegen Bumpgate.
Und deshalb ist auch das Artefakt Problem der RTX Karten durchaus relevant. Aber gut ... glaub du was du willst ... mehr wie auf solche Sachen hinweisen kann ich nicht. Kann ja dann jeder seine Schlüsse daraus ziehen.

Frei nach dem Motto, "was mich selbst nicht betrifft, existiert nicht", lesenswert schon vor zig Monaten: NVidia - Kalt erwischt: Fuehren SMT-Probleme und kalte Loetstellen zu den Ausfaellen bei Nvidias GeForce RTX 2080 Ti FE?
Seite 9
| igor sLAB Community


Ich weiß schon, nun bin ich gastello.:schief: :D
 
Ich kenne keine einzige Nachricht, dazu das sich eine 400 Watt AMD Karte selbst "entlötet", warum? Die GPU wurde mit einem Interposer vom PCB entkoppelt. Damit machen die Lagen der Energieversorgung kaum Probleme, dafür ist der Aufbau instabiler, bzw. lässt sich nicht ein so hoher Anpressdruck generieren, was die Hardware im Taktverhalten bei hoher Energiedichte limitieren kann.

Ich hatte übrigens ein Laptop mit der GT840m, war öfter kaputt. GPU wurde mehrfach getauscht. Warum? Lotproblem?

Ob man die braucht oder nicht, hatte ich bereits zeigt. Die Antwort ist klar "ja" und auch AMD sieht das ja so.
Die Antwort ist, dass du und einige wenige mehr, legen "in Hardware beschleunigt" als fixed Function aus, um es mit Nvidia gleich zu stellen. Die tun ja genau das Gleiche...um mehr geht es dir/euch nicht. Ob das so ist, wissen wir aber nicht.

Mal damit beschäftigen: Unified shader model - Wikipedia

Wenn man in der Instructionspipeline ein fixes Processing spart, spart man auch gleichzeitig Strom oder kann die freigewordene Rechenleistung bei gleichem Energieverbrauch für anderes einsetzen. Es wird dort übrigens super beschrieben. Es geht vor allem um ein effizientes Balancing, bei höherem Workload (auch im Worstcase) und das ist davon abhängig, was eine GPU in einem bestimmten Softwareumfeld leistet. Das tut sie nur, wenn man ihr die nötige Energie zuführt, wobei sie davon alles in Abwärme umwandelt.

Nvidia hatte zuletzt und mit TSMC immer den Vorteil, dabei weiter in die Fläche (mehr Waferfläche) gehen zu können (bei expliziet angepasstem Verfahren FFN), um höhere Leckströme zu vermeiden. Das Negative an diesem Modell ist, dass es kostenintensiv ist. Denn irgend jemand muss den Wafer bezahlen.

Es ist auch falsch zu behaupten, AMD wolle mit Bignavi seine Marge weiter steigern, sie wollen vor allem die derzeitige Marge von 50% halten (mehr teilte man den Investoren nicht mit, soweit bekannt waren die zufrieden, weil man den Anteil steigern will, Highend haben sie ja bisher nichts und vermutlich wird das auch gekauft wenn der Preis passt). Ich glaube das man daher mehr Spielraum hat als Nvidia, was die Einführungspreise angeht. GA102 ist deutlich größer als Bignavi (+100-200mm²). Du meinst Nvidia schenkt dir das?

Sie haben also 100-200mm² Spielraum bei der Waferfläche und 10% Spielraum bei der Bruttomarge. Letztlich bedeutet ein kleineres GPU-Die auch eine höhere Yieldrate, wobei sie schon mit Vega20 ausreichend Erfahrungen gesammelt haben dürften. Wie man am GA100 sieht, ist der Vollausbau bei Nvidia derzeit kaum zu bekommen. Alle bisherigen A100 sind teildeaktiviert.
 
Zuletzt bearbeitet von einem Moderator:
Ich bekomme je mehr News ich lese immer mehr den Eindruck das da ein ebenbürtiger RTX 3080 bzw 3090 oder 3080TI Konkurrent kommt, allerdings nur ohne Raytracing..

Mit Raytracing ist dann nur die 2080TI ebenbürtig! xD

Aber mir solls recht sein, ohne RTX mal wieder auf Augenhöhe sein, das ist auch schon ordentlich finde ich!
Zu mal die neuen Nvidia Karten ja wohl an der termischen Kotzgrenze laufen... :D
 
Kindergarten. Jedesmal wieder.

Seufz.

Lass sie doch einfach diskutieren... Denn was zumindest 100% sicher ist, dass hier auch über Themen diskutiert wird, von denen keine offiziellen Informationen da sind. Wie immer wird aber hier Spekulation in Faktform verkleidet.

Abgerechnet wird, wenn Big Navi tatsächlich gegen die neue RTX Reihe antritt.

Dann ist erstens sicher, welche Technik denn AMD nun tatsächlich in ihren Chips/Treibern für RTRT einsetzt (kann nämlich auch sein, dass es überhaupts nichts mit den Techniken im Patentantrag zu tun hat) und zweitens zeigt sich dann auch, welche Technik die überlegenere bzw. praxistauglichere ist.

Womit hier schonmal einige falsch liegen ist, dass die RT Cores die anderen Cores blockieren oder lahmlegen würden. Das läuft alles asynchron/parallel.

Auch ist espackos Schaubild ziemlich eindeutig und mittels nsight auch nachprüfbar:
https://www.hardwareluxx.de/images/...pdate-09_3B38525933DF4A76866ACA7122331010.jpg

Interessant aber zu sehen, was dann aus einer recht durchschaubaren Messung teils für Schlüsse gezogen werden...
Es ist eindeutig zu erkennen, wie stark die RT- Cores die Int/FP32 Cores- Schlacht für die Intersection- Berechnungen abkürzen.
Ansonsten hat abgesehen davon nvidia nie behauptet, dass es für RTRT zwingend RT- Cores braucht. Ansonsten bitte verlinken.

Sie haben immer nur gesagt, dass sie mit der RTX- Reihe das ganze auch in spielbare Regionen hieven konnten.

So haben sie selbst die ersten RTRT- Szenen inkl. Fallback geliefert.... und Treiber für die non RTX Karten (Pascal) geliefert, die mittels DXR RTRT nutzbar gemacht haben.

Was man aber nicht alles tut, um seinen persönlichen Klassenfeind in schlechte Licht zu rücken...
 
Zuletzt bearbeitet:
Womit hier schonmal einige falsch liegen ist, dass die RT Cores die anderen Cores blockieren oder lahmlegen würden. Das läuft alles asynchron/parallel.
Das "blockieren oder lahmlegen" liegt alleine schon durch die 3D Pilpline begründet, du kannst irgendwann nicht mehr weitermachen, du brauchst die Ergebnisse der "RT" Cores.
Alleine schon deswegen halten einige extra FF Funktionen für unsinnig, man wird sie nur durch Tricks WIRKLICH paralel rechenen lassen können (1 frame ahead und solche späße).
Aber schau dir die "Auslastung" doch mal an, die Schader sind bei RT Last mal gearde 5-10% ausgelastet und das auch nur, weil man eh warten müsste.

RT_nvidia.png
 
Das "blockieren oder lahmlegen" liegt alleine schon durch die 3D Pilpline begründet, du kannst irgendwann nicht mehr weitermachen, du brauchst die Ergebnisse der "RT" Cores.
Es ist bezeichnend, dass sowas hier dann als "besonders" herausgestellt wird. Und im Übrigen hat man in der Renderpipeline keine Interdependenzen?

Die Frage ist doch nur, ob es technisch möglich ist, ob man komplett async/parallel fahren kann.
Die Auslastung der Einheiten hängt von vielfältigen Parametern ab und ist überhaupt eine der Hauptherausforderungen sowohl beim GPU Design, als auch beim Programmieren einer Engine.

Deswegen sitzt ein großer Teil eines Programmierteams Tage und Nächte über den Auswertungen der Profiler, um da noch die einen oder anderen Prozentpunkte an Effizienz herauszuholen.

Alleine schon deswegen halten einige extra FF Funktionen für unsinnig, man wird sie nur durch Tricks WIRKLICH paralel rechenen lassen können (1 frame ahead und solche späße).
Aber schau dir die "Auslastung" doch mal an, die Schader sind bei RT Last mal gearde 5-10% ausgelastet und das auch nur, weil man eh warten müsste.
Alles eine Frage des Handlings und vor allem der Priorisierung, aber keine Einschränkung durch die Hardware per se.

FF schafft einem ja gerade einen Haufen Flexibilität allein dadurch, dass es eben feststehende Berechnungen so schnell durchprügelt, dass die anderen Einheiten überhaupt erst genügend Luft haben, um den Folgejobs nachgehen zu können.

Außerdem muss man immer ein Auge auf der Power- Budget haben, da sich allein dadurch schon Wechselwirkungen innerhalb der Funktionseinheiten ergeben.

Wenn Du Dir den Auslastungsschrieb ansiehst, siehst Du auch außerhalb der Phase des BVH- Traversals teils niedrige Auslastung an FP32. Das liegt eben daran, dass eine Grafikkarte noch einen Haufen anderer Ausführungseinheiten besitzt, die beliefert werden müssen.
So wird durch das Schaubild nur ein Bruchteil dessen erfasst, was die Grafikkarte gerade macht.

Schau Dir mal einen nsight Schrieb in allen Einzelheiten an - Dann weisst Du, was Sache ist.
 
Zuletzt bearbeitet:
Ja, weil die Shader komplett überfordert von der Arbeit wären.

Du hast das Schaubild ja offensichtlich angeschaut - aber verstanden hast du es wohl nicht. Hier für dich mal in *rot* markiert, was es zeigt:
Anhang anzeigen 1097178

Schade, ich dachte so ein Bild wäre mit dem grün/lila für jeden verständlich, gerade in so einem vorgeblichen Fach-Forum. Hab ich wohl einige Leute hier überschätzt.

edit: Bitte konkretisiere meine Frage nach den "einigen", die angeblich FixedFunction für RT für unsinnig halten.
Das Schaubild zeigt, das auch ohne RT Cores Truning schon deutlich schneller ist als Pascal, wie viel schneller wird RDNA2 sein?
 
Dann versuche hier nicht darzustellen als würden RT Cores UND Schader WIRKLICH 100% Parallel betrieben, das ist nämlich stuss.

Lies Dir meinen Text durch und versuche nochmal ihn zu verstehen.
Allein das Schaubild beweist, dass sie parallel betrieben werden, somit muss ich das mit dem "Stuss" leider zurückgeben, oder liegt eine Sehschwäche vor?

Zudem wird etwas parallel ausgeführt oder nicht bzw. die technischen Gegebenheiten/Möglichkeiten sind vorhanden. Keine Ahnung, was bei Dir eine 100% Parallelausführung bedeuten soll?

100% wovon?

Welche Einheit aber wann aufgerufen wird und mit welcher prozentualen Auslastung am Gesamtrechenbudget, bestimmt der Programmierer der Engine.

Und es gibt einige Vorgänge im Rendering, bei denen es sich eben schlichtweg nicht lohnt, mehrere Worker zu eröffnen, da der Verwaltungsaufwand bzw. das Timing bis zum Ziel- oder Zwischenergebnis effizienztechnisch keinen Nutzen hat.

Manche Berechnungen müssen trotz eines Parallelanstoßes zu einem Zeitpunkt XY beendet sein.
In der Praxis gibt es den Workload (bis auf ein par ns) schlichtweg nicht, in dem alle Funktionseinheiten zu gleichen Anteilen ausgelastet sind.

Du hast als Endergebnis nunmal immer das Ziel alle Framebuffer gefüllt zu haben und diese dann für das Zielframe zu "mergen". Insofern sind einer Asynchronität dort z.B. auch sehr enge Grenzen gesetzt.

Man programmiert nunmal Spiele nicht so, dass Messschriebe "schön" aussehen.
 
Zuletzt bearbeitet:
100% wovon?

Welche Einheit aber wann aufgerufen wird und mit welcher prozentualen Auslastung am Gesamtrechenbudget, bestimmt der Programmierer der Engine.

Und es gibt einige Vorgänge im Rendering, bei denen es sich eben schlichtweg nicht lohnt, mehrere Worker zu eröffnen, da der Verwaltungsaufwand bzw. das Timing bis zum Ziel- oder Zwischenergebnis effizienztechnisch keinen Nutzen hat.
Eben, das Problem ist inhärent du bekommt mit Turing KEINE wesentlich besser Ausalstung als das gesehen hin. Der Programmiere, wenn er bei klarem Verstand ist, bestimmt hier schlicht nichts. Was soll er denn machen? Die RT Core Arbeiten stückeln? Geht schlicht nicht. wenn du die RT Cores nutzt, dann in einem rutsch sonnst stimmt mit deinem Algorithmus etwas nicht und es wird zu teuer.
Mit asynchronous compute versuchst du die Hardware so gut auslasten wie's geht, mit Turing und RT Cores geht dies aber nicht. 1/10 Framtime machen ~90% der Shader schlicht nichts oder anderst rum, 9/10 FrameTime machen die RT Cores schlicht nichts.
Und das man DXR auch ohne dezidierte FF beschleunigen kann sieht man ja selbst an Pascal VS Turing (ohne RT). Selbst das geschönte DLSS+RT Farme hilft da nicht.
 
Guckst du in meine Tabelle. Und die 430 mm waren Hochrechnungen von Nvidia anhand des Xbox Dies mit 4608 Shadern und 384 Bit.
12Gb Speicher und 2,2Ghz
Die 505mm die tatsächlich schon jemand gesehen hat sind deutlich sicherer als irgendwelche Hochrechnungen von Nvidea :lol:

Dann ist das ein doppelter Navi 10 und für den I/O Video Part kann man noch etwas beifügen. Das ist realistischer,
 
Guckst du in meine Tabelle. Und die 430 mm waren Hochrechnungen von Nvidia anhand des Xbox Dies mit 4608 Shadern und 384 Bit.
12Gb Speicher und 2,2Ghz
Die 505mm die tatsächlich schon jemand gesehen hat sind deutlich sicherer als irgendwelche Hochrechnungen von Nvidea :lol:
Was "Hochrechnungen von Nvidea" hab ich irgendetwas verpasst?
 
Zuletzt bearbeitet:
*Kopfschüttel*
Niemand möchte Pascal "Shader" für DXR und wie sich RDNA2 Shader schlagen, wird sich zeigen.
Und wetten dein "Monster Pascal" ist gerechnet mit DLSS, was die RT "Leistung" zu gunsten von Truing schönt.
Ansonsten ist das mit dir schlicht Zeitverschwendung, lass es.
 
Zurück