Release ende 2021 - [ironie an] das hieße dann dass die Karten wohl erst irgendwann im Herbst 2022 verfügbar wären bei der derzeitigen Lieferlage [ironie aus]
2021 dürfte schon hinkommen, da man hier Verträge mit dem DOE einhalten muss und das Design vorrangig für den
Frontier entwickelt worden sein dürfte, ebenso wie der SemiCustom-Zen3, der um HPC- und AI-Funktionalität erweitert sein soll, also möglicherweise eine erweiterte Vektoreinheit besitzen wird (
im einfachsten Fall AVX-512).
Okay, interessant ist vor allen Dingen die FP16-Leistung die für einige Compute und vielleicht auch AI-Anwendungen interessant ist. Wenn AMD dann so einen Chipteil in die Gamer-GPUs einbauen könnte wäre da auch endlich die Hardwarebeschleunigung für KI-Upscaling. [...]
CDNA hat mit Consumern und Gaming nichts zu tun. Darüber hinaus ist die für AI-Workloads verfügbare FP16-Leistung relativ überschaubar aufgrund fehlender, spezialisierter Funktionseinheiten. Eine MI100 kommt hier bzgl. AI-Workloads mit FP16 auf gerade mal 185 TFlops. Bereits eine RTX 3090-Consumer-Karte, die voraussichtlich weniger als 1/6 kostet, erreicht in diesem Kontext bereits 285 TFlops. (
Die A100 erreicht gar in der "kleineren" (ersten) Version regulär 312 TFlops. Bzgl. des Trainings wird es gar noch schlechter, denn AMD gibt für bfloat16 gerade mal 93 TFlops an, während ein A100 hier ebenfalls 312 TFlops erreicht und bei INT8 wird das Verhältnis nochmals schlechter: 185 zu 624 TFlops.)
Hier bleibt abzuwarten, ob das "nur" ein hochskaliertes CNDA-Design sein wird oder aber ggf. bereits CDNA2. Und ebenfalls bleibt abzuwarten, ob das tatsächlich ein MCM sein wird oder ob hier vorerst einfach nur zwei Chips auf einer Karte verbaut werden, wie es AMD schon bei der Vega20/Apple-Karte (
Radeon Pro Vega II Duo) in 2019 machte.
Ergänzend zu "
endlich die Hardwarebeschleunigung für KI-Upscaling": AMD bewirbt zwar in Verbindung mit CDNA/der MI100 etwas namens "
new Matrix Core Technology", das die Matrix-Operationen beschleunigt, jedoch weiß ich nicht genau, was das technisch im Detail ist. Sieht man sich rein die Leistungswerte an, ist es jedenfalls mit den Tensor Cores v3 nicht einmal ansatzweise vergleichbar, d. h. es werden vermutlich ein paar architektonische Optimierungen sein, jedoch keine dedizierten Hardwareeinheiten.
Anmerkung zum Prozess: Da die MI100 bereits mit 300 W spezifiziert ist, wird das MI200-Desing voraussichtlich den N6 (5 EUV-Lagen, der Rest mittels DUV) verwenden, da der N7P hier zu wenig Möglichkeiten bzgl. Power Savings bietet und der N7+ kann kategorisch ausgeschlossen werden, da der Prozess inkompatibel bzgl. seiner Design Rules ist, d. h. AMD hätte hier aufwändig und umfangreich neuimplementieren müssen und es wäre zudem eine Einbahnstraße; ein mit Blick auf deren beschränkte Ressourcen eher auszuschließender Entwicklungsschritt.
Ergänzender Hinweis: Der Titel ist zudem (Click-generierenderweise?) irreführend, denn hierbei handelt es sich um keine "Grafikkarte", sondern um einen reinen Rechenbeschleuniger. Die Karten verfügen über keinerlei Videoausgänge und im Gegensatz zu Vega 20 würden die hier auch nachgerüstet nichts helfen, da der CDNA-Architektur wesentliche Bestandteile der 3D/Rasterpipeline fehlen.