Ich würde hier mit einem "jain" antworten.@gerX7a Hab ich da etwas völlig missverstanden oder liegst du evtl falsch?
Quelle: https://www.igorslab.de/amd-spricht...pcs-in-spielen-durch-ki-intelligenter-machen/
Über diese Art der KI-Beschleunigung verfügen RDNA1/2 m.W.n. eben nicht.
Ich hoffe ja inständig, das auch zumindest RDNA2 in vollen Zügen von FSR3 profitieren wird, nur glaube ich es halt angesichts o.g. Sachverhaltes eher weniger oder eben nur eingeschränkt bzw. mit niedrigerer Performance.

Die Shader-Blöcke verfügen über einen Satz Vector General-Purpose Registers (sowie Scalar GPRs) und denen wurde zusätzliche "Verdrahtung" in Form eines sogenannten "AI Matrix Accelerator" beigefügt. Diese implementieren die zuvor erwähnten WMMA-Instruktionen, die Generalized Matrix Multiplication (GEMM) Operations beschleunigen. AMD selbst schreibt hierzu:
Das was nVidia mit seinen Tensor Cores bietet, geht noch ein gutes Stück darüber hinaus, wobei diese zudem auch deutlich funktionsreicher sind (bspw. inkl FP64-Funktionalität).The WMMA instruction optimizes the scheduling of data movement and peak math operations with minimal VGPR access by providing source data reuse and intermediate destination data forwarding operations without interruption. The regular patterns experienced in matrix operations enable WMMA instructions to reduce the required power while providing optimal operations that enable sustained operations at or very near peak rates.
Dennoch hat AMD hier den Durchsatz ggü. RDNA2 verdoppeln können bzgl. FP16, konkret 512 Flops/Clock/CU. Neu hinzu kam bfloat16-Support mit gleichem Durchsatz, während sich bei den kleinen Integer-Formaten ggü. RDNA2 nichts geändert hat (letztere sind bspw. relevant für "sparsames" Inferencing, also das Anwenden von NNs).
Mit den WMMA-Operationen erreicht AMDs RX 7900 XTX theoretische Spitzenwerte von rd. 123 TFlops mit FP16 oder bspw. auch INT8 (verdoppeln kann RDNA3 den Durchsatz nur mit dem sehr kleinen und deutlich seltener anwendbaren INT4-Format).
Die RTX 4090 erreicht hier 330 TFlops respektive 661 TFlops. Unter Verwendung von deren Sparsity-Feature können sich die Leistungswerte bei nVidia gar noch bis hin zu verdoppeln. Die RTX 4080 erreicht hier 195 und 390 TFlops, mit Sparsity ebenfalls mit der Option bis hin zur einer Durchsatzverdopplung.
Hier ist man also noch ein gutes Stück weit weg von nVidia, hat aber zumindest ggü. RDNA2 an einigen Stellen deutlich zugelegt.
Man darf jedenfalls gespannt sein, wie sich das in Gaming-relevante Features ummünzen lässt, so bspw. ein FSR3 und was das für GPUs ohne diese Architekturverbesserung von RDNA3 bedeuten wird bzw. ob und welche Kompromisse hier AMD möglicherweise eingehen wird, um das Feature auch auf zumindest einigen anderen/älteren GPUs zum Laufen zu bekommen, denn nur bezogen auf RDNA3 wäre die Attraktivität ob des kleinen Marktanteils relativ gering.
Zuletzt bearbeitet: