Open-Source-DLSS von Intel: XeSS in Aktion, alle Informationen

PCGH-Redaktion · 19. August 2021

Jetzt ist Ihre Meinung gefragt zu Open-Source-DLSS von Intel: XeSS in Aktion, alle Informationen

Intels kommende Arc-Grafikkarten werden mit einer DLSS-Alternative starten, welche ebenso wie das Nvidia-Verfahren mit KI-Informationen arbeitet. Mehr noch, Intels Verfahren namens XeSS (Xe Super Sampling) wird quelloffen sein und soll auch auf Radeon- und Geforce-Grafikkarten laufen. Wir fassen die Informationen zusammen.

Bitte beachten Sie: Der Kommentarbereich wird gemäß der Forenregeln moderiert. Allgemeine Fragen und Kritik zu Online-Artikeln von PC Games Hardware sind im Feedback-Unterforum zu veröffentlichen und nicht im Kommentarthread zu einer News. Dort werden sie ohne Nachfragen entfernt.

Zurück zum Artikel: Open-Source-DLSS von Intel: XeSS in Aktion, alle Informationen

blubb3435 · 19. August 2021

Was ist denn das für ein seltsames Flimmern im Video bei 0:39 auf der 1080p-Hälfte? :huh:

KasenShlogga · 19. August 2021

In Standbildern scheint die Technik fast an DLSS heranzukommen, zumindest bei Objekten die nah an der Kamera dran sind. Allerdings frage ich mich wie das ganze in Bewegung aussieht, vor allem bei Kontrastreichen Bildausschnitten. DLSS hatte in früheren Versionen da so seine Probleme mit Ghosting.

Übrigens guter Witz, dass Intel das Video in dem die 4k-Qualität präsentiert wird nur in 1080p hochgeladen hat.

RX480 · 19. August 2021

DP4a = FP32-->INT8 x 4

bin mal gespannt, wie´s am Ende soo funzt, ... abgeht wie Schmitz Katze@RDNA2
(auch ohne Tensor-Cores)

Locuza bei CB:

News - Xe SS: Intels DLSS-Konkurrent mit KI auch für AMD und Nvidia

Da sieht FSR richtig alt gegen aus. Ich hoffe, dass Intel XeSS für alle GPUs freischaltet, die über die entsprechenden Int4/8 Einheiten verfügen.

www.computerbase.de

Alle PC RDNA2 GPUs von AMD unterstützen DP4a, sprich Navi21, Navi22, Navi23, Navi24, Van Gogh/Mero (Steam Deck), Rembrandt (APU für 2022 mit 8x Zen3+-Kernen und 12x RDNA2 CUs).
Zusätzlich auch die Xbox Series X/S.
Die einzigen zwei Chips, welche mixed dot-products nicht unterstützen, sind Navi10 und GFX1013, Letzteres eine kommende APU mit einer GPU, welche Raytracing unterstützt, aber kein DP4a und von der Konfiguration her genauso aussieht wie die PS5...
Zusammen mit anderen Behauptungen kann man seit längerem davon ausgehen, dass die PS5 kein DP4a unterstützt.
und
Das "DP4a" auch über die Tensor-Kerne implementiert ist, dazu findet man (ich) keine Bestätigung.
(da wird Raff wohl wieder zu ungenau in die Specs geschaut haben)

Navi10 = 5600+5700

AMD-Radeon-RX-5000-Serie – Wikipedia

de.wikipedia.org

gerX7a · 19. August 2021

Wird vermutlich auf der Intel- und nVidia-Architektur am besten laufen aufgrund der HW-Unterstützung. Bei AMD fehlt die schlicht, d. h. der Inferencing-Teil muss hier über die ALUs prozessiert werden, was langsamer sein wird (FSR verzichtete nicht ohne Grund auf einen AI-basierten Ansatz). Ob RDNA2's großer L3$ auf den GPUs da zumindest ein wenig kompensieren können wird, wird man abwarten müssen, wäre aber zumindest denkbar.

RX480 · 19. August 2021

Ich sehe bei NV keine besondere Hardwareunterstützung für DP4a.(x)
Tensor ist very special und ohne Anpassung geht Da wohl eher erstmal NIX.

(x) wenns wie bei FP16+INT8 läuft, könnte Turing evtl. ganz gut damit

PCGH_Raff · 20. August 2021

Das mit den Tensor-Kernen ist reine Spekulation und offiziell von Intel-Seite sowieso nicht zu erwarten. Aber möglicherweise baut es jemand im Rahmen von Open Source ein. Spannend ist die Geschichte allemal. Was wohl Nvidia antwortet?

Btw:

RX480 schrieb:
(da wird Raff wohl wieder zu ungenau in die Specs geschaut haben)

Da musst du mich mit jemandem verwechseln.

MfG
Raff

RX480 · 20. August 2021

PCGH_Raff schrieb:
Da musst du mich mit jemandem verwechseln.

"Theoretisch ließen sich aber zumindest Nvidias Tensor-Kerne in Volta, Turing und Ampere für die XeSS-Berechnungen heranziehen"

Sorry, das klang für mich so, als ob Du "zuversichtlich" bist, ...das Jensen da mal Jemand ran lässt.
Denke eher, Er will nur die "neuen" Grakas verkaufen, ...und wird NIX zugunsten älterer Modelle zulassen, sofern
Turing das net über INTx4 bereits kann.

PCGH_Raff · 20. August 2021

Ich habe den Text just etwas erweitert. Unklar ist außerdem die API-Situation. Schaumer mal, dann sehmer scho, wa.

MfG
Raff

Rollora · 20. August 2021

toll, was sich da tut bezüglich DLSS/FSR/XESS.
Mit Raytracing die spannendste Entwicklung im GPU Bereich seit vielen Jahren. Hoffe, dass dank der Open Source Ansätze die Vorteile von FSR/XESS verschmelzen und ausgebaut werden können. Das Hilft, das Leben einer GPU zu verlängern (oder günstiger in hohen Auflösungen zu spielen) und Raytracing schneller durchzusetzen

tacmichi · 20. August 2021

War zwar zu erwarten, dass Intel primär sein eigenes Süppchen bräut, aber jetzt haben wir 3 verschiedene Techniken, die alle erstmal mit gänzlich unterschiedlichen Techniken funktionieren.
Je nach Game hat man dann mit GPU XY immer das nachsehen...

Ich sehe hier nur Zukunft, wenn sich die Techniken durch open-source wirklich deutlich annähern, oder eine sich als Standard für alle durchsetzt.

cx19 · 20. August 2021

tacmichi schrieb:
War zwar zu erwarten, dass Intel primär sein eigenes Süppchen bräut, aber jetzt haben wir 3 verschiedene Techniken, die alle erstmal mit gänzlich unterschiedlichen Techniken funktionieren.
Je nach Game hat man dann mit GPU XY immer das nachsehen...

Ich sehe hier nur Zukunft, wenn sich die Techniken durch open-source wirklich deutlich annähern, oder eine sich als Standard für alle durchsetzt.

So lange die Techniken Open-Source bleiben finde ich das ok. Dann kann ein gewiefter Entwickler adaptieren.

RX480 · 20. August 2021

Oder ein "fauler" Entwickler bräuchte dann nur noch DP4a implementieren.
(Colindo bei CB meint, das sogar Pascal damit können sollte)

Am Ende stehen dann nur die PS5+Navi10 etwas gesondert Da und brauchen FSR.

4thVariety · 20. August 2021

Wenn Intel sowas nicht hätte wären sie sofort im Nachteil, also müssen sie es haben.

Jetzt da sie es haben fragen sich die Entwickler warum sie das implementieren sollten, schließlich hat ja kaum jemand Intel Karten.

Also macht es Intel zu einem offenen Standard, dann profitiert zwar auch die Konkurrenz, aber die Entwickler bauen lieber etwas ein, das 100% des Marktes unterstützt und Intel erringt einen Punktsieg, weil Nvidia ein Alleinstellungsmerkmal verliert.

Intel meint es ernst mit GPUs und auch wenn sie die 3090 nicht schlagen, werden sie den anderen Karten das Leben zur Hölle machen. Fragt mal Cyrix und Via wie es denen ergangen ist. Intel sind Experten in Sachen Marktverdrängung von Konkurrenz, auch wenn sie zuletzt etwas geschwächelt haben.

RX480 · 20. August 2021

INTEL-APU = Marktführer, hinzu kämen mit Alchemist dann ne Menge Fertig-PC´s von der Stange.
Zusätzlich kann ein großer Teil der älteren Grakas bei NV+AMD mit DP4a umgehen und sogar das neue
Steam-Deck und die Xbox.

Ich würde Es daher sogar begrüßen, wenn sich INTEL mit seiner Lösung durchsetzt.

Eher ist die Frage, wird DLSS ein zweites überflüssiges Gsync.
FSR wirds wohl auch nur für Sony weiter geben müssen, falls Die net schon Ihr eigenes Süppchen kochen.

Locuza · 20. August 2021

gerX7a schrieb:
Wird vermutlich auf der Intel- und nVidia-Architektur am besten laufen aufgrund der HW-Unterstützung. Bei AMD fehlt die schlicht, d. h. der Inferencing-Teil muss hier über die ALUs prozessiert werden, was langsamer sein wird (FSR verzichtete nicht ohne Grund auf einen AI-basierten Ansatz). Ob RDNA2's großer L3$ auf den GPUs da zumindest ein wenig kompensieren können wird, wird man abwarten müssen, wäre aber zumindest denkbar.

Wenn man Intel's Folie glauben möchte, dann ist der Overhead (falls die Qualität die selbe ist) bei der Berechnung von DP4a über die ALUs nur ein wenig langsamer, als über die Matrix-Einheiten.
Entsprechend wäre es nicht der Hardware geschuldet, dass AMD z.B. nicht auf einen AI-basierten Ansatz setzt, sondern schlicht eine Zeit/Umsetzungsfrage auf Seiten der Software.
In ein paar Monaten kann man das hoffentlich auf Intel's Hardware testen und schauen, ob das tatsächlich so ist.

RX480 schrieb:
Oder ein "fauler" Entwickler bräuchte dann nur noch DP4a implementieren.
(Colindo bei CB meint, das sogar Pascal damit können sollte)

Am Ende stehen dann nur die PS5+Navi10 etwas gesondert Da und brauchen FSR.

Alle oder die meisten Consumer Pascals sollten DP4a unterstützen, GP102, GP104, GP106, etc.?
Der HPC-Chip GP100 tut das allerdings nicht.

Für Navi10/PS5 könnte man sich überlegen eine Sonderlösung zu machen, der Overhead wäre dann noch größer, könnte aber vielleicht immer noch in dem Bereich liegen, wo es lohnenswert wäre.

Infinity1985 · 20. August 2021

RX480 schrieb:
INTEL-APU = Marktführer, hinzu kämen mit Alchemist dann ne Menge Fertig-PC´s von der Stange.
Zusätzlich kann ein großer Teil der älteren Grakas bei NV+AMD mit DP4a umgehen und sogar das neue
Steam-Deck und die Xbox.

Ich würde Es daher sogar begrüßen, wenn sich INTEL mit seiner Lösung durchsetzt.

Eher ist die Frage, wird DLSS ein zweites überflüssiges Gsync.
FSR wirds wohl auch nur für Sony weiter geben müssen, falls Die net schon Ihr eigenes Süppchen kochen.

Intel als Marktführer bei Grafikkarten zu bezeichnen, nur weil sie eine Grafiklösung in ihre CPUs verbauen, halte ich doch etwas für sehr weit hergeholt. Wir wissen alle was das für Grafikkrüppel sind und was man damit (nicht) zocken kann. Die werden auch mit XeSS nicht brauchbarer.

FSR würde ich nicht anschreiben, da es das wohl am einfachsten zu implementierende Feature von den dreien ist und mit Version 1 gerade einmal am Anfang steht und hier schon überzeugen kann.

Intel muss ohnehin erst einmal liefern. Sollten die GPUs nämlich floppen, wird auch XeSS ganz schnell wieder in der Versenkung verschwinden. Intel hat noch nie etwas ohne Eigennutz weiter fortgesetzt.

Olstyle · 20. August 2021

FSR1 ist technisch gesehen lächerlich einfach und vor allem nicht ausbaufähig. Im Grunde ein leicht konfigurierbarer Lanczos-Filter+Nachschärfen wie ihn jedes Videoprogramm beinhaltet.
Für 2.0 wird man da komplett von 0 neu starten müssen.
Intel scheint dagegen zu versuchen den DLSS 2.0 Ansatz zu kopieren. Damit besteht zumindest das Potenzial mitzuhalten.

RX480 · 20. August 2021

Infinity1985 schrieb:
FSR würde ich nicht abschreiben, da es das wohl am einfachsten zu implementierende Feature von den dreien ist und mit Version 1 gerade einmal am Anfang steht und hier schon überzeugen kann.

1+

Ala GTA5 ne einfache Implementierung in Reshade hätte sicherlich genug Anhänger.
= nutzbar in vielen Games, auch ohne "gekaufte" Studios + "grüne" Moderatoren-Zustimmung

Solange Aufwand+Nutzen passt, ist auch eine zweit/drittbeste Lösung nützlich und man hätte "lächerlich" viel Spass
daran.

gerX7a · 20. August 2021

RX480 schrieb:
Ich sehe bei NV keine besondere Hardwareunterstützung für DP4a.(x)
Tensor ist very special und ohne Anpassung geht Da wohl eher erstmal NIX.

(x) wenns wie bei FP16+INT8 läuft, könnte Turing evtl. ganz gut damit

Die Ausage ist unzutreffend,.
nVidia unterstützt DP4A bereits seit Pascal. Konkret unterstütrzt man hier sogar noch zwei zusätzliche Varianten DP2A(hi) und DP2A(lo) die jedoch mit INT16 als Eingabewerten arbeiten.
Wesentlicher ist jedoch, dass bereits die Tensor Cores v2 von Turing vollumfänglichen Support für INT8/FP32 und INT4/FP32 bieten, d. h. die sind dafür grundsätzlich am besten aufgestellt, denn während die Implementation bei Intel und auch die Funktionalität bei AMD nur zusätzliche "Verdrahtung" und Datenpfade in den ALUs bedeutet, handelt es sich bei nVidia um dedizierte HW-Einheiten.

AMD spricht nicht groß über ihre Mixed Precision-Leistung, weil RDNA nicht darauf abzielt und man im direkten Vergleich gegen nVidia grundsätzlich deutlich den Kürzeren zieht. Darf man den Infos auf

AMD Radeon RDNA 2 "Big Navi" Architectural Deep Dive: A Focus on Efficiency | Hardware Times

When AMD announced its Radeon RX 6800 series and 6900 XT GPUs, otherwise known as Big Navi last month, the architectural details were quite sparse. There were two features that were the primary focus: The huge 128MB of L3 cache, dubbed as the Infinity Cache by AMD, and the relatively high core...

www.hardwaretimes.com

Glauben, erreicht RDNA2 aber dennoch Mixed Precision INT8/INT32 512 Ops/Cycle/CU, was in etwa auf dem Niveau des Durchsatzes von Intels Xe liegt. *)

Unterm Strich hat man hier also eine weitere Technik, die auf sämtlichen, halbwegs aktuellen Architekturen laufen wird, auf Intel- und AMD-Hardware in etwa vergleichbar schnell und nVidia's Hardware hat aufgrund der Tensor Cores v3 hier einen deutlichen Vorteil bzgl. des Inferencing-Teils des Workloads, wenn man diese den nutzen wird. **)

*) Die beiden größten RDNA2-Modelle sind absehbar gar geringfügig leistungsfähiger aufgrund mehr CUs und ein wenig mehr Takt, denn aktuell vermutet man, dass Intels Design sich bei grob um die 2 GHz bewegen wird und deren vorläufiges Topmodell wird sich auf 512 EUs beschränken (64 Ops/Cycle/EU in Xe-LP).

**) Eine RX 6800 XT erreicht, je nachdem welchen Takt man anrechnet zwischen 74,5 - 83,0 TOPS INT8, eine RTX 3080 erreicht mit ihren Tensor Cores v3 dagegen 238 TOPS, also gut den dreifachen Durchsatz. (Und die Implementation auf dem A100 ist nochmals doppelt so durchsatzstark.)

Locuza schrieb:
Wenn man Intel's Folie glauben möchte, dann ist der Overhead (falls die Qualität die selbe ist) bei der Berechnung von DP4a über die ALUs nur ein wenig langsamer, als über die Matrix-Einheiten.
Entsprechend wäre es nicht der Hardware geschuldet, dass AMD z.B. nicht auf einen AI-basierten Ansatz setzt, sondern schlicht eine Zeit/Umsetzungsfrage auf Seiten der Software.
In ein paar Monaten kann man das hoffentlich auf Intel's Hardware testen und schauen, ob das tatsächlich so ist.

Die Technik muss ja zwangsweise in absolutem Rahmen einen geringen Overhead haben *), denn andernfalls könnte man ja keine Beschleunigung erreichen. ;-)

Ich sprach auch nirgends von absoluten Zugewinnen oder habe etwa impliziert, dass Intels HW in einem Vergleichbaren Setup 2,0x Fps erreicht, während die Technik auf RDNA2 möglicherweise nur 1,2x imstande zu leisten wäre. So deutlich können die Unterschiede natürlicherweise nicht ausfallen.
Darüber hinaus ist ja auch immer noch zu berücksichtigen, wie groß der Inferencing-Anteil an dem Workload insgesamt ist. Je größer der ist, desto bedeutender wird die Mixed Precision-Leistung der Architektur, und entsprechend hat nVidia hier einen potentiellen Vorteil, d. h. wenn sich wer die Mühe macht, das auf die Tensor Cores umzulegen.
nVidia selbst könnte das machen, die Frage ist aber, ob sie ein Interesse daran haben, denn am Ende könnte man dem eigenen DLSS damit das Wasser abgraben. Hier wird man einfach abwarten müssen. **)

*) Wenn ich das recht in Erinnerung habe, dann hatte man in Demonstrationen rund um DLSS exemplarisch etwa um die 16 ms pro Frame gezeigt und davon entfiel irgendwas in der Größenordnung von etwa 1,5 ms auf den DLSS-Pass. Zudem zu beachten ist hierbei der nur halb so hohe Durchsatz, da nVidia mit FP16 bei DLSS arbeitet und nicht mit INT8.

**) Wenn die Eingabeparameter und Anforderungen an die Engine bzgl. Bewegungsvektoren recht ähnlich wären, könnte es gar sein, dass DLSS und XeSS gar weitestgehend austauschbar wären? Noch mehr Spekulatius. ;-)

Am Ende muss man aber erst mal abwarten, was die Technik zu leisten vermag und wie konkret sie Intel zu positionieren gedenkt. FSR bringt als General Purpose Lösung schon einen deutlichen Mehrwert, was XeSS da mögicherweise noch draufzulegen vermag ... man wird sehen. Zumindest scheint man guter Dinge zu sein, dass man mehr bieten kann, den andernfalls wäre es ein no-brainer XeSS zu bringen, wenn dieses gar schlechter als das selbst auf Intel-Hardware nutzbare FSR abschneiden würde.

Open-Source-DLSS von Intel: XeSS in Aktion, alle Informationen

Kommentar-System

PC-Selbstbauer(in)

Software-Overclocker(in)

Lötkolbengott/-göttin

BIOS-Overclocker(in)

Lötkolbengott/-göttin

Bitte nicht vöttern

Lötkolbengott/-göttin

Bitte nicht vöttern

Kokü-Junkie (m/w)

Kabelverknoter(in)

Freizeitschrauber(in)

Lötkolbengott/-göttin

BIOS-Overclocker(in)

Lötkolbengott/-göttin

Lötkolbengott/-göttin

Komplett-PC-Aufrüster(in)

Moderator

Lötkolbengott/-göttin

BIOS-Overclocker(in)

Ähnliche Themen