Weiß man überhaupt schon worüber RayTracing in RDNA2 läuft?
Im Groben ist die Implementation grundsätzlich gleich aufgebaut, schlicht, weil die APIs hier die Eckpunkte vorgeben. Es wird eine BVH-Datenstruktur verarbeitet/traversiert und es gibt eine Intersection-Engine die Box-Intersections und Triangle-Intersections mit Fixed-Function-Einheiten berechnen kann, mehr nicht, genau wie bei nVidia auch.
Bei nVidia hängen die vermeintlichen "RT-Cores" am SM, AMD hat die Einheiten in die TMUs verlagert, was aber am Ende schlussendlich ein eher weniger relevantes Detail ist. Einziger bekannter Unterschied gemäß AMDs Raytracing-Patent ist, dass AMD hier etwas mehr Flexibilität bzgl. der Eingriffsmöglichkeiten durch die SPs haben wollte, sodass man hier nach jeder einzelnen Intersection-Berechnung zu den SPs zurückkehrt und diese entscheiden, ob die Strahlverfolgung fortgesetzt wird.
Was am Ende wie läuft, performanter, besser, eleganter ist, wird man abwarten müssen und wahrscheinlich wird diese Frage auch nicht grundsätzlich zu beantworten sein, da die Verwendung durch die Engine für konkrete Anwendungsfälle die eine oder andere Implementation bevorzugen kann.
Wesentlicher dürfte absolut gesehen schlicht die Rohleistung sein, d. h. wie viele RT-Recheneinheiten haben jeweils nVidia's und AMDs neue GPU-Generationen implementiert. Beispielsweise bei nVidia würde ich davon ausgehen, dass es in Ampere min. zwei "RT-Cores" pro SM gegben wird, denn andernfalls kann man keine signifikante RT-Leistungssteigerung realisieren, da die Berechnung/der Algorithmus relativ einfach ist und es im Wesentlichen um Rohrechenleistung geht.
Ein etwas außerhalb dieser Betrachtung liegender, aber nicht minder wichtiger Faktor sind jedoch die Tensor Cores v3 bei nVidia, die für das DeNoising und bspw. für DLSS 2.0 genutzt werden können. Gerade letzteres ist mittlerweile so weit gereift, dass es tatsächlich einen beträchtlichen Mehrwert schafft und dadurch zu verhindern hilft, dass für höhere Auflösungen der Rechenaufwand quadratisch ansteigt. Entsprechende Algorithmen kann man auch über die SPs realisieren, jedoch rechen nVidias Tensor Cores in dem Falle weitaus effizienter, sodass man dies, wenn man jenseits WHQD spielen will, durchaus als zumindest potentiellen Pluspunkt betrachten kann.
Ob es vergleichbare Spezialeinheiten in RDNA2 gibt oder aber zumindest die FP16 und/oder bfloat16-Leistung anderweitig deutilch gesteigert wurde, um vergleichbare Workloads ähnlich effizient zu berechnen, ist aktuell nicht bekannt.
[...] RDNA2 kommt in der verbesserten 7nm+ Fertigung. Allein daher wird die schon weniger Strom verbrauchen.
Nur möglichwerweise. Navi 10 wird bereits im N7P gefertigt. Von da ausgehend auf den N7+ zu wechseln, bringt relativ wenig (außer beträchtliche, zusätzliche Kosten)
U. u. könnte aber auch der N7+ genutzt werden (was ich jedoch nur mit einer geringeren Wahrscheinlichkeit annehmen würde).
Schlussendlich ist der Power Saving-Vorteil bei beiden Prozessen jedoch im Vergleich zum N7 überschaubar. Den N7+ gibt TSMC im Vergleich zum N7 mit bestenfalls 10 % an und auch für den Vergleich N7P zu N7 geben sie bis zu 10 % Zugewinne bzgl. Power Savings (bei vergleichbarem Takt und vergleichbarer Komplexität) an.
Den Großteil ihres Perf/Watt-Versprechens muss AMD hier auf architektonischem Wege beisteuern; hier können sie sich nicht auf den Prozess verlassen.
Anders dagegen sieht es dieses Jahr bei nVidia aus, die bereits durch den Wechsel auf einen deutliche moderneren Fertigungsprozess bzgl. der Energie-Effizienz einen beträchtlichen Sprung vorgelegt haben, wie bereits Ampere als GA100 demonstrierte.