[...] Ich bleibe dabei ich, sehe keinen Sinn in der 6900 XT, zumindest solange einem die Marke egal ist
.
Etwas ernüchternd ist es schon, da es ansonsten die gleiche Karte ist, ebenfalls die exakt gleichen 16 GiB und der PCGH-Index ggü. der RX 6800 XT gerade mal gemittelt +6 % auswirft, wärend die MSRP mal eben +350 US$/€ höher liegt. Hier lässt AMD sich den Vollausbau durchaus gut bezahlen oder aber AMD quersubventioniert den Salvage-Chip, weil man ansonsten die 649 US$ der RX 6800 XT nicht hätte anbieten können um die RTX 3080 FE zu unterbieten, wer weiß?
Derzeit aber eh egal bei den Mondpreisen ... und eine kleiner Abstecher nach Absurdistan: Händler A. listet bspw. eine SAPPHIRE Radeon RX 6800 XT OC NITRO+ für schlappe 999 € ... aber bevor da wer jetzt in den saueren Apfel beißen möchte: "
Liefertermin unbekannt". Demgegenüber Händler M., der um 15:20 Uhr zumindest noch vier unterschiedliche RX 6800 als lieferbar listete, hat mittlerweile seinen Shop sowie selbst die Menüeinträge soweit wieder entfernt, sodass dort aktuell keine einzige RX 6000 geordert werden kann. Vielleicht sollte man Frank Azor mal bitten allen "geprellten" Fans eine 10-Dollar-Note zu überweisen?
Wo sind die Tensor Cores in den AMD Beschleunigern? Oder wird da einfach FP16/8 genutzt?
Als Erklärung: AMD kann ML-Berechnungen tatsächlich über die normale FP16 oder INT8-Funktionalität abwickeln, d. h. einer Implementation von DirectML steht nichts im Wege. Das API dient eh nur dazu eine universelle Schnittstelle für derartige Workloads bereitzustellen. Die Nutzung der jeweiligen Funktionseinheiten wird dann mithilfe des jeweiligen Grafiktreibers auf die optimale Einheit verteilt. (Genaugenommen kann DirectML-Code selbst auf der CPU laufen.) Wird ein DirectML-Shaderprogramm auf einer RDNA(2)-GPU ausgeführt, müssen hier die normalen SPs ran, ebenso wie auf Pascal-GPUs, kommt dagegen eine Turing- oder Ampere-GPU als Unterbau zum Einsatz, wird hier die Hauptlast des Workloads auf die Tensor Cores verlagert.
Vorteil der Tensor Cores ist schlicht, dass die ein gutes Stück leistungsfähiger sind, was sich darin ausdrücken kann, dass ein derartiger PostPro-Durchlauf auf einer AMD-Karte vielleicht 2,5 ms/Frame in Anspruch nimmt, während der gleiche Code auf der NV-Karte vielleicht in 1,5 ms oder weniger durchläuft.
*) Beispielsweise die erste Beta-Implementation von DLSS 2.0 (auf einem id-Titel, wenn ich mich recht erinnere) wurde auf Turing noch über die nomalen CUDA-Cores (also die SPs) realisiert. Erst die finale Implementation wurde auf die Tensor Cores verlagert.
**) AMD gibt die RX 6900XT mit 46 TFlops FP16 an. In einem für ML relevanten Workload erzielt eine RTX 3090 jedoch 285 TFlops. Selbst die RTX 3060 Ti ist mit etwa 130 TFlops diesbezüglich noch deutlich leistungsfähiger, d. h. hier kann man also deutlich mehr erwarten. (Auch bei INT8 hat eine 3090 nahezu den sechsfachen Durchsatz i. V. z. einer 6900 XT bei ML-Workloads.)