FidelityFX Super Resolution: AMD stellt sich der Qualitäts-Kritik

Ach und die vorhandenen (alten) Bildinformationen während des Renderings verarbeiten und vergleichen kostet keine Performance? Die Komplexität ist eher hoch gegangen, alleine schon weil man einen allgemeinen Algorithmus und keinen per-Game Algorithmus nutzt. Sieht man auch an der nvngx_dlss.dll, die wird mit jeder Iteration größer.
Das muss nicht zwingend gegeben sein. Du kannst mit Daten vieles entschlacken, vereinfachen und vorher effizient Aufbereiten. All das kann das NN massiv entlasten was wiederum in einfachere Strukturen resultiert.
Deine Aussage war dass man auch ohne Tensor Cores einen "deutlichen" Performance Gain hinbekommt. Zum dritten Mal Dein Zitat:
Und zum dritten mal ich sage nicht das es ähnlich gut läuft und du sollst aufhören solche Sachen in den Mund zu legen. Deutliche Performance != Ähnlich schnell wie mit TC. Das die Tensor Cores schneller sind habe ich nie bestritten.
Ich lass die Diskussion jetzt auch. Hat wenig Sinn.

Entschuldigt, aber könnt ihr mal bitte das divenhafte Rumhezicke unterlassen, oder das per PN klären? Es nervt allmählich….
Hast recht ist in richtigem Kindergarten ausgeartet.
 
Was meinst du mit Shader-Emulation? DP4 ist ja kein Shader Kram. Das sind dedizierte Vektoreinheiten. XeSS auf normalen Shadern wird wohl nicht so der Hit denke ich mal.
DP4A ist keine dedizierte HW-Einheit, sondern schlicht zusätzliche "Verdrahtung" in den regulären Shader-Einheiten, um diese Operationen effizienter berechnen zu können und im Idealfall wird die Funktionalität mittels einer einzigen Instruktion angeboten.
nVidia bspw. führte die Unterstützung schon mit Pascal in 2016 ein ab dem GP102, 104 und 106, hier als DP4A, DP2A_hi und DP2A_low und erreichte bspw. in der Tesla P40 (GP102) 47 TOPS INT8.
AMD folgte mit einer Erweiterung der Funktionalität in Vega10 in 2017 (auf dem PC) und bohrte hier mit INT8 auf auf bis zu 48 TOPS.
Intel führte entsprechende Operationen zuerst ein mit dem letzten Xeon Phi Knights Mill (Ende 2017), der VNNI einführte und übertrug dieses danach in die CPUs ab Cascade Lake, sowie später Ice Lake, Tiger Lake und Rocket Lake. Ab Xe-LP findet man die Funktionalität auch seit 2020 bereits in der Entry-Level-GPU-Architektur und in 2021/22 weiterhin in den CPUs in Form von 256bittigem VNNI in Alder Lake und natürlich auch in Xe-HPG. **)

Intel hat zudem einen zusätzlichen, optionalen Port in Xe für Matrix Extensions (XMX; vermutlich nur in Xe-HPG und größer), über die Intel XeSS prozessiert, die etwas effizienter als einfaches DP4A zu sein scheinen. Deren Sheets legen aber nahe, dass ein Fallback auf reguläres DP4A und eine äquivalente Umsetzung bei bspw. AMD nicht übermäßig langsamer ist, sodass XeSS allgemein auf modernen GPUs genutzt werden kann. Der vergleichsweise geringe Leistungszuwachs ggü. nVidia's einfachem DP4A i. V. z. zu deren Tensor Cores legt zudem nahe, dass deren XMX-Funktionsblock sehr leichgewichtig implementiert ist, wenn es sich um eine komplett eigenständige Funktionseinheit handelt oder aber er gar andernfalls Funktionsblöcke der regulären Funktionseinheiten mitnutzt, denn nVidia's Tensor Cores v2 (Turing) weisen hier einen deutlich höheren Durchsatz bei INT8 auf.

*) Seit der Einführung der Tensor Cores redet nVidia nicht mehr von DP4A und entsprechender INT8-Funktionalität über die Shader (nachvollziehbarerweise). Verfügen diese aus Kompatibilitätszwecken immer noch über die gleiche Funktionalität und einen vergleichbaren Durchsatz, so dürfte der TU102 in der 2080 Ti FE rund 57 TOPS INT8 liefern. Über die Tensor Cores sind mit INT8 jedoch bis zu 228 TOPS möglich, d. h. die hochspezialisierten Tensor Core v2-Einheiten sind hier wesentlich leistungsfähiger.

**) In den großen Golden Cove-Kernen unterstützt Intel DP4A-Funktionalität natürlich auch weiterhin in der 512bittigen Variante von VNNI, zusätzlich nun aber auch in einer 256bittigen Variante, die zudem auch gleichzeitig in den kleinen Gracemont-Kernen (E-Cores) zur Verfügung steht.
 
Zuletzt bearbeitet:
XMX sind dedizierte Einheiten auf zukünftigen Intel GPU's:

Neben Hardware für Raytracing spendiert Intel den Arc-GPUs auch spezielle KI-Beschleuniger. Die „Xe Matrix eXtensions“ (XMX) in den Xe-Kernen sollen Intels DLSS-Alternative XeSS antreiben.

Ich gehe mal davon aus dass Nvidia XeSS zukünftig auch über Tensor Cores pushen wird.
Interessant wird wie AMD das handhaben wird, wenn sie keine dedizierten Einheiten wie Nvidia oder Intel einbauen werden sie ordentlich zurückfallen.
Bei XeSS werden das gut 5-15% wenn AMD GPU's über den Fallback DP4 laufen.
 
@gerX7a
Vega ist DP4A noch etwas "schwachbrüstig", bei RDNA sollte es als "FixedFunction über" die Shader angebunden vorhanden sein (dafür spricht der "Durchsatz" - AMD schweigt dazu.
RDNA 2 ist ein DP4A beast *zaunpfahl*, schwerer mittels Algorithmus zu bändigen aber inc Rapid Packed Math wirken andere Implementierungen wie "Spielzeug" . ;)
 
Naja "Beast" ist relativ in diesem Sinne. nVidia ist mit seinen Tensor Cores hier deutlich leistungsfähiger, was aber auch nicht anders zu erwarten ist. RDNA2 wird mit 512 Ops/Clock/CU angegeben, was bspw. bei der RX 6900 XT zu bestenfalls 92 TOPS INT8 Mixed Precision führt. Bereits die kleinere RTX 3080 erreicht hier den 2,5-fachen Durchsatz über die Tensor Cores.
Intel dürfte mit Xe architektonisch mindestens genau so durchsatzstark wie RDNA2 sein. Hier wird eine INT8-Peak-Leistung von 64 Ops/Clock/EU angegeben. Intels Leistung könnte ggf. aber auch bis zu doppelt so hoch im Vergleich zu RDNA2 liegen, wenn hier XMX genutzt wird, denn diese ursprügnliche Durchsatzangabe bezog. sich noch auf die Vorstellung von Xe-LP mittels DP4A, während die XMX-Einheiten in der Architektur optional und in LP voraussichtlich nicht vorhanden sind. Würde XMX mit seinen zusätzlichen Transistorkosten aber keinen Mehrwert ggü. implizitem DP4A bringen, wäre es sinnbefreit, insofern könnte man einen höheren Durchsatz vermuten (oder bspw. zumindest eine parallele Verarbeitung zu den regulären INT/FP-Einheiten), d. h. Intel's Xe-HPG hätte hier bei INT8 Mixed Precision voraussichtlich bereits einen signifikant höheren Durchsatz i. V. z. RDNA2 anzubieten, was auch erklären könnte, warum dieser XeSS auf Intel-Karten etwas schneller berechnen können sollte als der DP4A-Fallback (nur "etwas", da das NN-Inferencing ja nur einen Teil des Algorithmus darstellt).

*) Wohlgemerkt bei in etwa vergleichbarem Silizium, was hier nicht ganz trivial zu vergleichen ist, da RDNA2 und Xe(HPG) gänzlich anders organisiert sind. Beispielsweise Intel's 512 EU-Design wird bis zu einer RTX 3070/RX 6700 XT-Leistung spekuliert, entsprechend wäre das ein sinnvolles Vergleichsobjekt.
Die RX 6700 XT wird mit bspw. 13,2 TFlops FP32 angegeben, für das Intel-Design werden ebenso um die 2+ GHz Takt spekuliert. Bereits mit 2,0 GHz würde Intels Vollausbau einen Peakwert von 16,4 TFlops erreichen, kommt also grob hin.
**) Wie es am Ende FPS-technisch aussehen wird, steht auf einem anderen Blatt, da reine Compute-Leistung etwas anderes als FPS darstellt, das noch den gesamten Rest der in der Renderpipeline befindlichen Funktionseinheiten inkludiert. ;-)

Schlussendlich, wenn Intel's XeSS das liefert, was man zumindest in Aussicht stellt, darf man sich als Besitzer einer halbwegs modernen GPU freuen und hat bei entsprechender Unterstützung im Titel gar noch die Option auf möglicherweise zu DLSS2 vergleichbarer Qualität auch ohne nVidia-Hardware?
Anmerkung: Entsprechendes Vorgehen ist sicherlich eine gute Strategie bzw. gar vermutlich eine zwingend notwendige, sowohl für Intel als auch für AMD mit ihrem FSR. Die Frage wird nur sein welchen Hebel das bieten können wird, denn bspw. gemäß Steam haben RTX-GPUs bereits gut 25 % Anteil an den dort erfassten Desktop-Systemen, d. h. hier beherrschen schon verhältnismäßig viele GPUs DLSS2.
 
Zuletzt bearbeitet:
Letztlich beschreibst du hier eine Schlacht zwichen einer Kanone (nvidia, eventuell auch intel;) ) gegen hundert Pistolen (AMD, eventuell auch wieder intel ;) ). Klar, schlägt die Kanonenkugel ein, dann kracht es. Aber bis die Kanone einsatzbereit, durchgeladen ist, können schon hunderte Pistolenkugeln eingeschlagen sein.
Hoffe du verzeihst mir den etwas sonderbaren Vergleich, denke aber es ist nicht mehr lange hin, bis es einigen mehr klarer wird. Intel will ja zeitig raushauen.

Vielleicht hat intel aber auch sowohl Kanone als auch Pistolen am Start, würde doch so einiges erklären. ;)
 
Wie kommst du auf diesen schrägen Vergleich? Wenn du es unbedingt in der Art darstellen willst, läuft hier AMD mit einer kleinen 22er auf, während nVidia die 357er Magnum im Anschlag hat. ;-)
Wo sich Intel hier aktuell mit Xe-HPG einsortiert, ist noch nicht ganz klar, könnte grob auf AMDs Niveau oder etwas darüber sein, wird aber mit ziemlicher Sicherheit ebenso nicht mit nVidia bzgl. derartiger Funktionalität mithalten können im Consumer-Segment. (Anmerkung: Xe-HPC muss in dieser Hinsicht separat bewertet werden; hier wird man alleine schon vermutlich aufgrund der Skalierung auf Hopper für einen sinnvollen Vergleich warten müssen.)
 
Nvidia wird es nicht schaffen, sofern sie es überhaupt unterstützen werden, bei XeSS die Tensor Cores _pro frame_ EINMAL komplett auszulasten. Sie werden den Durchsatz nicht ansatzweise so hochschrauben können, wie sie es mit dlss können, dlss wurde passgenau auf die Tensor Cores zugeschnitten.

Wenn nvidia XeSS nicht bis zur quasi Inkompatibilität umkrempelt, werden sie die Tensor Kanone nicht nutzen können.
 
Genau das habe ich mir beim Lesen dieses Satzes auch direkt gedacht. Seit wann unterstützt nvidia bitte andere Systeme als die eigenen?
Sie haben doch die Marktmacht und wissen ganz genau dass sie nicht gezwungen werden können.
 
DP4A ist keine dedizierte HW-Einheit, sondern schlicht zusätzliche "Verdrahtung" in den regulären Shader-Einheiten, um diese Operationen effizienter berechnen zu können und im Idealfall wird die Funktionalität mittels einer einzigen Instruktion angeboten.
Jup, die Korrektur ist gekauft. Ich würde es aber dennoch als Fixed Function beschreiben. Normale Shader Instruktionen sind das nicht. Das sind Skalarprodukte, die Hardware beschleunigt ausgeführt werden.
 
Jup, die Korrektur ist gekauft. Ich würde es aber dennoch als Fixed Function beschreiben. Normale Shader Instruktionen sind das nicht. Das sind Skalarprodukte, die Hardware beschleunigt ausgeführt werden.
Wie gesagt, übermäßig viel beschleunigt wird da nicht. *) Das wird über die regulären Shadereinheiten berechnet. Ich vermute hier tragen die "zusätzlichen Verdrahtungen" lediglich ein paar zusätzliche Datenpfade und für diese Operation fest angebundene Schattenregister bei um die Daten für diese MMA-Operation schneller hin und her zu schieben.
Was bei ausgewachsenen, dedizierten HW-Einheiten an einem Leistungsplus herauskommt, sieht man bspw. bei den Tensor Cores.

*) Sieht man auch an den offiziell angegebenen Durchsatzwerten von bspw Pascal und RDNA2. Bei AMD ist nach wie vor nicht die Rede von einer DP4A-Unterstützung und die INT8-Peak-Durchsatzwerte entsprechen hier schlicht dem regulären Peak-Durchsatz, d. h. keine über den regulären Durchsatz hinaus zusätzliche Beschleunigung. Bei AMD wird das dann also mit RDNA1/2 schlicht manuell berechnet werden, was aber nur unwesentlich langsamer sein dürfte.

Bei nVidia's aktuellen Gens ist es recherchetechnisch problematisch. Ich würde vermuten die Shader unterstützen deren DP4A-Instruktionssatz immer noch, die reden aber nicht mehr darüber aufgrund der Tensor Cores, die in diesem Kontext weitaus durchsatzstärker sind.

Intel hat in Xe (vermutlich erst ab HPG) zusätzliche Vektor-Einheiten, hier XMX genannt. Details sind hier noch nicht bekannt. Ich könnte mir vorstellen, dass wenn das echte HW-Fixed-Function-Einheiten sind, dass die min. den doppelten Durchsatz ggü. den Shadern aufweisen werden.
Überbewerten sollte man das für diesen konkreten Workload (XeSS) dennoch nicht, da das Inferencing nur einen Teil des gesamten Workloads ausmacht.

Was bei XeSS vielversprechend aussah, ist, dass deren UE-Schnee-Demo von FullHD auf 4K skaliert wurde und dabei augenscheinlich dennoch sehr gut aussah, wenn die Demo auch nicht gerade mit Details überladen war. nVidia's DLSS2 geht hier für das Quality-Preset dagegen von QHD als nativer Renderauflösung aus. Mal abwarten wie es a) qualitativ am Ende aussehen wird und b) wie die Adpationsrate sein in konkreten Titeln wird.
 
Zuletzt bearbeitet:
Genau das habe ich mir beim Lesen dieses Satzes auch direkt gedacht. Seit wann unterstützt nvidia bitte andere Systeme als die eigenen?
Sie haben doch die Marktmacht und wissen ganz genau dass sie nicht gezwungen werden können.
Natürlich tun sie das, mein Freesync Monitor mit meiner Nvidia GPU unterstützt G-Sync Compatible, und das geht nur weil Nvidia das supportet.
Nvidia ist nicht blöd und würde, sofern technisch machbar, nicht auf freie Performance verzichten und sich selber in ein schlechteres Licht rücken.
Wenn man XeSS mit Tensor Cores pushen kann wird Nvidia das bestimmt machen, das heißt nicht dass man danach DLSS fallen lässt.
 
Natürlich tun sie sowas nicht! wie lange hat es gedauert bis Nvidia es dann mal langsam zugelassen hat das Freesync Monitore an den Karten richtig funktionierten? 'In meiner Erinnerung waren das Jahre,
und noch lange kein Garant das sie die nächsten freien Entwicklungen überhaupt mal unterstützen.
 
Natürlich tun sie sowas nicht! wie lange hat es gedauert bis Nvidia es dann mal langsam zugelassen hat das Freesync Monitore an den Karten richtig funktionierten? 'In meiner Erinnerung waren das Jahre,
und noch lange kein Garant das sie die nächsten freien Entwicklungen überhaupt mal unterstützen.
Du widersprichst Dir, natürlich tun sie das, das gibst Du sogar selber zu.
Sie tun es wenn sie sich einen Vorteil darauf erhoffen, und sofern technisch machbar, wird man XeSS sicher auch mit Tensor Cores pushen.
 
sie tun es nicht "natürlich" jetz klar was ich meinte auf deine Aussgae.
Es ist mit sicherheit für NVIDIA kein natürlicher Vorgang.
 
Nvidia hat es mit FreeSync getan, wieso sollten sie es mit XeSS nicht machen sofern technisch machbar?

Man verzichtet also freiwillig auf Performance und lässt zu dass der direkte Konkurrent, in dem Fall Intel, im Vergleich besser aussieht?

Das ist vollkommen unlogisch.
 
Man hat aber auch für dafür mehr bekommen.
Nehmen wir mal die RX 5700 XT und die RTX 2070 super. Beide nehmen sich in der Rasterleistung nicht viel.
Während man mit der Nvidia Karte FSR/DLSS/Raytracing bekommt, steht aus der Habenseite von der RX 5700 XT nur FSR.
Was jetzt jemand will/braucht ist eine andere Sache. Aber unbestreitbar ist, daß eine RTX 2070 super mehr zu bieten hat. In Cyberpunk war ich, bei einer Auflösung von 3440x1440p und identischer Einstellung, mit der RTX 2070 super/DLSS Quali schneller unterwegs als mit der RX 6800.
Was DLSS anno 2018 abgeliefert hat interessiert doch nicht. Wir haben 2021 und FSR muß sich mit dem aktuellen DLSS messen.
Nein eben nicht. Wenn ich mich noch richtig erinnere ging es in dem von mir zitierten Beitrag um die Frage warum sich damals alle Leute über DLSS geärgert haben und jetzt FSR aber gefeiert wird.

Insofern ist die Frage was Nvidia 2018 abgeliefert hat eine absolut essentielle Frage zur Beantwortung dieser Frage.

Und auch im heutigen Vergleich welche Technologie besser ist spielt das eine Rolle wenn man die Frage langfristig beantworten möchte.

Wenn man die Frage stichpunktartig. Welche Technologie am 25.10.2021 die besser ist spielt dlss 1.0 keine Rolle. In der Frage welche Technologie zukünftig besser sein könnte spielt die Weiterentwicklung von dlss in 2 Jahren sehr wohl eine Rolle da fsr noch keine 2 Jahre Zeit hat nach Release zu Reifen. Gerade als Open Source Produkt gibt es viel Potential darauf dass sich zukünftig viele Menschen darauf stürzen werden den Algorithmus verbessern zu wollen....

Letzten Endes aber wissen weder du noch ich was am Ende wirklich besser sein wird es sind alles nur Einschätzungen durch eine imaginäre Glaskugel...
 
Zurück