Open-Source-DLSS von Intel: XeSS in Aktion, alle Informationen

Die Technik muss ja zwangsweise in absolutem Rahmen einen geringen Overhead haben *), denn andernfalls könnte man ja keine Beschleunigung erreichen. ;-) Ich sprach auch nirgends von absoluten Zugewinnen oder habe etwa impliziert, dass Intels HW in einem Vergleichbaren Setup 2,0x Fps erreicht, während die Technik auf RDNA2 möglicherweise nur 1,2x imstande zu leisten wäre. So deutlich können die Unterschiede natürlicherweise nicht ausfallen.
Ich finde schon das deine Behauptung das impliziert hat, wo die Vermutung aufgestellt wurde, dass wegen den Mangel an dedizierten HW-Einheiten, FSR nicht ohne Grund auf ein AI-Modell verzichtet.
Falls man allerdings über die Shader-ALUs insgesamt nur geringfügig langsamer rechnet, dann wäre es aus Hardwareperspektive praktisch grundlos gewesen bzw. die Gründe finden sich dann woanders.

Leider haben wir hauptsächlich nur Marketingfolien von Nvidia und jetzt Intel in diesem Bezug, ohne Praxisergebnisse erscheint das jetzt schwer abschätzbar, vor allem wie du angesprochen hast, dürfte es auf den Inference-Teil ankommen.
Je, anspruchsvoller es wird, desto mehr dürften die Matrix-Einheiten Vorteile bringen.
 
nVidia's Hardware hat aufgrund der Tensor Cores v3 hier einen deutlichen Vorteil bzgl. des Inferencing-Teils des Workloads, wenn man diese den nutzen wird. **)
An NVs Stelle würde ich es mir bei einer FOSS Lösungen ja nicht nehmen lassen die 100 Entwicklerstunden zu investieren. Einfach nur für das "schaut Mal was wir können und ihr nicht" Argument.
Anders herum bezweifel ich aber bis heute dass das Inferencing eines DLSS 2.0 Modells soo dramatisch viel Leistung braucht dass es nicht auch auf GP Shadern noch sinnvoll einsetzbar wäre.
 
Ich finde schon das deine Behauptung das impliziert hat, wo die Vermutung aufgestellt wurde, dass wegen den Mangel an dedizierten HW-Einheiten, FSR nicht ohne Grund auf ein AI-Modell verzichtet.
Falls man allerdings über die Shader-ALUs insgesamt nur geringfügig langsamer rechnet, dann wäre es aus Hardwareperspektive praktisch grundlos gewesen bzw. die Gründe finden sich dann woanders.

Leider haben wir hauptsächlich nur Marketingfolien von Nvidia und jetzt Intel in diesem Bezug, ohne Praxisergebnisse erscheint das jetzt schwer abschätzbar, vor allem wie du angesprochen hast, dürfte es auf den Inference-Teil ankommen.
Je, anspruchsvoller es wird, desto mehr dürften die Matrix-Einheiten Vorteile bringen.
Bei FSR gibt es zwei mögliche Gründe m. M. n., bzw. es könnten gar auch beide gleichzeitig zutreffen.
a) Zum einen AMDs mangelndes KnowHow/Erfahrung im Bereich AI *) und/oder mangelnde Ressourcen für die Erstellung eines derartigen Ansatzes zum jetzigen Zeitpunkt.
b) FSR war auch insbesondere für die Konsolen mitgedacht und die verfügen nun einmal über deutlich weniger CUs und takten niedriger. Das macht auch was aus, denn da kann man zwangsweise nicht zu viele Ressourcen drauf verwenden, weil das sonst kontraproduktiv wird.

Ergänzend könnte man noch vermuten, dass AMD unbedingt den Support der Alt-GPUs (die dahingehend noch schwächer auf der Brust sind) gegen das deutlich etabliertere DLSS benötigte. Vielleicht nicht ganz abwegig, aber hier würde ich dann doch eher vermuten dass die oberen beiden Punkte relevanter sein dürften.

Darüber hinaus, es steht vollkomen außer Frage, dass nVidia DLSS in der Form auch als vermarktungstechnisches Argument nutzt (ist letzten Endes auch ihr gutes Recht), aber die dedizierten HW-Einheiten, die gar eingeschränkt parallel arbeiten können, sind zweifellos ein Pluspunkt der Architektur. Das ist nun mal nicht von der Hand zu weisen.
@Olstyle: Das "dramatisch" ist ja schon wieder sehr auslegungsfähig. Wie bekannt sein sollte, nutzte eine erste Beta-Implementaiton in einem id-Titel die Shader für DLSS2 und nicht die Tensor Cores. D. h. natürlich geht das grundlegend, langsamer wird es aber grundsätzlich, da die Tensor Cores diesbezüglich hier weitaus durchsatzstärker sind.
Darüber hinaus vermeide ich es hier in dem Kontext auch bewusst irgendwem vorzuschreiben was er/sie als langsam, ausreichend schnell oder schnell zu empfinden hat, weil das subjektiv ist. Und bei Diskussionen rund um Supersampling in dieser Art sollte klar sein, dass man da nur über absolut gesehen kleinere Schwankungsbereich spricht, da der Supersampling-Pass grundlegend nur einen vergleichsweise kleinen Anteil an der Frametime haben kann.

*) Bevor jetzt wieder Mitleser anfangen zu weinen: relativ gesehen zu nVidia und Intel.

Interessant wird nun auch zu spekulieren sein, was Intels XeSS langfristig mit AMDs möglicher FSR-Weiterentwicklung oder -Nachfolge machen wird. Vermutlich wird man an einem AI-Ansatz (bzw. genauer ML/DL) zwecks besserer Leistung/Qualität nicht vorbei kommen, wenn jetzt aber auch noch Intel eine bereits gute Implementation frühzeitig abliefert, die zudem frei verfügbar sein soll, wäre da am Ende nur noch wenig Luft bzw. Bedarf für noch eine weitere Variante, zumal auch angeblich Microsoft selbst an einem AI-basierten Upscaling arbeitet. ;-)

Einfach mal abwarten. Grundsätzlich ist man nun schon gut bedient. Der Großteil nutzt derzeit eh nVidia-Hardware und wird auch kein allzu großes Problem mit deren DLSS-Politik haben. Für den Rest (wobei natürlich mit gewissen Einschränkungen) stehen FSR und möglicherweise als leicht bessere Alternative XeSS zur Verfügung. Man darf auf jeden Fall auf erste Tests gespannt sein, wobei das genaugenommen selbst aktuell noch bei FSR/DLSS eher problematisch ist, bei der geringen Auswahl/Vergleichsmöglichkeit an Dual-Implementationen.
In Anlehnung an Olstyle kommt aber auch hier schon wieder der sehr subjektiv auslegungsfähige Aspekt hervor, denn es ist ja letzten Endes keinesfalls so, dass FSR mit seinen ein, zwei höchsten Modi unbrauchbar wäre, ganz im Gegenteil.
 
Wenn man Intel's Folie glauben möchte, dann ist der Overhead (falls die Qualität die selbe ist) bei der Berechnung von DP4a über die ALUs nur ein wenig langsamer, als über die Matrix-Einheiten.
Entsprechend wäre es nicht der Hardware geschuldet, dass AMD z.B. nicht auf einen AI-basierten Ansatz setzt, sondern schlicht eine Zeit/Umsetzungsfrage auf Seiten der Software.
In ein paar Monaten kann man das hoffentlich auf Intel's Hardware testen und schauen, ob das tatsächlich so ist.

Alle oder die meisten Consumer Pascals sollten DP4a unterstützen, GP102, GP104, GP106, etc.?
Der HPC-Chip GP100 tut das allerdings nicht.

Für Navi10/PS5 könnte man sich überlegen eine Sonderlösung zu machen, der Overhead wäre dann noch größer, könnte aber vielleicht immer noch in dem Bereich liegen, wo es lohnenswert wäre.
Sony hat vor etwas mehr als einem Jahr (23.07.2020) ein Patent eingereicht, das verdächtig nach AI-Upsampling klingt (ist japanisch, nur ein Teil ist auf englisch und dieses Englisch ist furchtbar^^ aber anyway)

Gruß,
Phil

[source]
1629476099665.png
 
Anders herum bezweifel ich aber bis heute dass das Inferencing eines DLSS 2.0 Modells soo dramatisch viel Leistung braucht dass es nicht auch auf GP Shadern noch sinnvoll einsetzbar wäre.
Leider kommt man fast nur an Marketing-Material, wenn es um den Unterschied zwischen CUDA- und Tensor-Cores geht. Herauslesen konnte ich bisher eigentlich nur die Option von Mixed-Precision sowie 4x4-Matrix-Multiplication anstelle von Single-Multiplication.
Letzteres wird für den höheren Durchsatz verantwortlich sein. Ich schätze mal, dass das vom Prinzip etwa mit AVX vergleichbar ist, wo auch ein deutlich höherer Durchsatz erreicht wird. Die geringere Precision ist in dem Fall ohnehin vernachlässigbar.
 
Bei FSR gibt es zwei mögliche Gründe m. M. n., bzw. es könnten gar auch beide gleichzeitig zutreffen.
a) Zum einen AMDs mangelndes KnowHow/Erfahrung im Bereich AI *) und/oder mangelnde Ressourcen für die Erstellung eines derartigen Ansatzes zum jetzigen Zeitpunkt.
b) FSR war auch insbesondere für die Konsolen mitgedacht und die verfügen nun einmal über deutlich weniger CUs und takten niedriger. Das macht auch was aus, denn da kann man zwangsweise nicht zu viele Ressourcen drauf verwenden, weil das sonst kontraproduktiv wird.

Dritte Möglchkeit:
c) AMD hat wesentlich weniger Entwickler als Intel oder Nvidia und AMDs Ansatz bietet wesentlich weniger Ansatzpunkte, die Artefakte hervorrufen könnte. So ist sichergestellt, dass das Bild auch mit vertretbarem Aufwand zumindest an keiner Stelle schlechter aussieht als bei nativem Rendering in niedrigerer Auflösung, was man zumindest von DLSS 1.0 nicht sagen konnte. Da gab es sogar im offiziellen Pressematerial eine (Batman-)Szene, in der die künstliche Idiotie Straßenlaternen dazuphantasiert hat, wo die Designer bei nativem Rendering in höherer Auflösung Dunkelheit vorsahen.
 
Ich denke DLSS1 ist schon lange nicht mehr relevant. ;-) Darüber hinaus würde ich hier gar soweit gehen und behaupten, dass das eher ein Schnellschuss war, um der 2018/19er-Gamerschaft eine Begründung zu liefern, warum Tensor Cores auf Gamer-GPUs sind (und entsprechend "mitbezahlt werden müssen").
 
Ich denke DLSS1 ist schon lange nicht mehr relevant. ;-) Darüber hinaus würde ich hier gar soweit gehen und behaupten, dass das eher ein Schnellschuss war, um der 2018/19er-Gamerschaft eine Begründung zu liefern, warum Tensor Cores auf Gamer-GPUs sind (und entsprechend "mitbezahlt werden müssen").
Anfangs hat Nvidia gesagt, man benötige die Tensor Cores für das Denoising. Hätte man da auch belassen können auch wenn es nie dazu gekommen ist.
Es war wohl eher von Anfang an klar das insbesondere die kleineren Karten zu schwach für RT werden und je nach Szene extrem einbrechen. Damit wäre das ganze Marketing eine reine Luftnummer geworden und der deutlich höhere Preis schwer zu vertreten.
Auch ein Schnellschuss ist fragwürdig. Die werden sicher frühzeitig gesehen haben das die für RT Lösungen brauchen.
 
Auch eine valide Sichtweise. Rein ergebnisbezogen fand ich DLSS1 jedoch als zu unausgegoren, daher ein "Schnellschuss" in meiner Sichtweise. Aufgrund der mangelnden Konkurrenz konnte man sich jedoch auch eine derartige Präsentation noch erlauben zu der Zeit.

Darüber hinaus, vor zwei, drei Wochen bin ich über einen interessanten Artikel zu einer FSR-Detailanalyse gestolpert (den ich mittlerweile leider vergeblich wiederzufinden versuche), der aufzeigte, dass die dort verwendeten Kerntechniken bei nVidia schon lange im Treiberportfolio vorhanden waren nur nie nennenswert promoted wurden (und ab/mit Turing sicherlich bewusst nicht mehr). Entsprechend könnte man sich ausmahlen, dass nVidia auch anstatt DLSS1 leicht ein FSR-Pendant für ein Upscaling hätte bringen können. Diesem hätte jedoch der verkaufsfördernde Faktor gefehlt und gleichzeitig wäre ein oder der (vorläufig) einzige Anwendungszweck für die Tensor Cores abhanden gekommen. Ich denke durchaus, dass man hier sehr gezielt eine Implementation über die Tensor Cores via ML/DL anstrebte und eine konvetionelle Methode (für die man durchaus die Mittel gehabt hätte) bewusst verworfen haben wird, schicht eine marktstrategische Entscheidung.
 
Leider kommt man fast nur an Marketing-Material, wenn es um den Unterschied zwischen CUDA- und Tensor-Cores geht. Herauslesen konnte ich bisher eigentlich nur die Option von Mixed-Precision sowie 4x4-Matrix-Multiplication anstelle von Single-Multiplication.
Letzteres wird für den höheren Durchsatz verantwortlich sein. Ich schätze mal, dass das vom Prinzip etwa mit AVX vergleichbar ist, wo auch ein deutlich höherer Durchsatz erreicht wird. Die geringere Precision ist in dem Fall ohnehin vernachlässigbar.
Die Infos über die Tensorcores schienen mir in den Technikartikeln von Raff und Co. durchaus detailliert bekannt zu sein.
Was dagegen wirklich nur mit Marketingfolien vorhanden ist, ist eine Info wie das Netz für DLSS2 überhaupt aussieht.
 
Sieht schonmal gut aus, doch wieviel Frames das kosten wird interessiert mich mehr.
 
Was dagegen wirklich nur mit Marketingfolien vorhanden ist, ist eine Info wie das Netz für DLSS2 überhaupt aussieht.
Die genaue Architektur wird NVIDIA wohl nicht ohne Grund nicht verraten wollen, aber das wird auch keine schwarze Magie sein. Ich gehe davon aus, dass es ein Convolutional Autoencoder ist, der als Input aber nicht nur ein Bild in geringer Auflösung hat (ggf. sogar zzgl. vorangehender Frames um die Stabilität zu erhöhen), sondern auch einen Bewegungsvektor.
 
Darüber hinaus, vor zwei, drei Wochen bin ich über einen interessanten Artikel zu einer FSR-Detailanalyse gestolpert (den ich mittlerweile leider vergeblich wiederzufinden versuche), der aufzeigte, dass die dort verwendeten Kerntechniken bei nVidia schon lange im Treiberportfolio vorhanden waren nur nie nennenswert promoted wurden (und ab/mit Turing sicherlich bewusst nicht mehr). Entsprechend könnte man sich ausmahlen, dass nVidia auch anstatt DLSS1 leicht ein FSR-Pendant für ein Upscaling hätte bringen können. Diesem hätte jedoch der verkaufsfördernde Faktor gefehlt und gleichzeitig wäre ein oder der (vorläufig) einzige Anwendungszweck für die Tensor Cores abhanden gekommen. Ich denke durchaus, dass man hier sehr gezielt eine Implementation über die Tensor Cores via ML/DL anstrebte und eine konvetionelle Methode (für die man durchaus die Mittel gehabt hätte) bewusst verworfen haben wird, schicht eine marktstrategische Entscheidung.
GPU Scalling ist ja nichts neues, bei AMD gibt es einen Lanczos artigen Hardware Scaler schon gefühlt ewig in deren GPUs.

Und was ich von nvidias BLOBs halte:
NV_FY.gif
 
Zuletzt bearbeitet:
Ich denke DLSS1 ist schon lange nicht mehr relevant. ;-) Darüber hinaus würde ich hier gar soweit gehen und behaupten, dass das eher ein Schnellschuss war, um der 2018/19er-Gamerschaft eine Begründung zu liefern, warum Tensor Cores auf Gamer-GPUs sind (und entsprechend "mitbezahlt werden müssen").

Die Probleme einer mit geringem Entwicklungsaufwand fertiggestellten Upscaling-Lösung sollen nicht mehr relevant sein für einen Hersteller, der mit geringem Entwicklungsaufwand eine Upscaling-Lösung fertigstellen muss? Gewagte These, die ich nicht weiter kommentieren möchte.
 
Zurück