AMD im Zeitplan: Zen 4 in 5 Nanometern, Zen 3 noch 2020, keine Angst vor ARM

- Grafikkarten werden jetzt gerade erst auf 7nm geliefert (AMD) oder nur High-End auf 8nm Samsung (=10nm...) produziert (Nvidia), die große Masse an 7/10nm kommt erst 2021. ........., NVidia hat den TSMC-Zug ja vorerst vorbeifahren lassen.

Also du gehst auch davon aus das Nvidea das mit 7nm bei TSMC verkackt hat ? :-)

Doch, nur offensichtlich zu schnell *schäm*. Sieh' es einfach als Zusatzinformation. ;-)
Ampere leistet hier überraschend viel und überraschend effizient und das, obwohl mit Blick auf den Linpack ein Großteil der GPU-Hardware voraussichtlich gar nicht zum Einsatz kommt.

ist ja kein Drama :D
Wie meinst du das "ein Großteil der GPU-Hardware voraussichtlich gar nicht zum Einsatz kommt" ?
 
- Grafikkarten werden jetzt gerade erst auf 7nm geliefert (AMD) oder nur High-End auf 8nm Samsung (=10nm...) produziert (Nvidia), die große Masse an 7/10nm kommt erst 2021. Wenns die üblichen 2-3 Jahre bis zum nächsten Shrink dauert sehen wir 5nm Karten 2022 nicht mehr. Höchstens Ende 2022 von AMD als earlyadopter, NVidia hat den TSMC-Zug ja vorerst vorbeifahren lassen.
Du hast die letzten 18 Monate wohl im Winterschlaf gelegen? AMD hat seit Februar 2019 7nm Grafikkarten und seit Juli 2019 Prozessoren in 7nm auf dem Markt. Die einzigen Schlafmützen sind Intel und NV.
 
Also du gehst auch davon aus das Nvidea das mit 7nm bei TSMC verkackt hat ? :-)
?

Nach allen verfügbaren Infos hat NVidia keine 7nm Kontingente [für Consumerprodukte] bei TSMC gebucht weil es ihnen zu teuer war und sie mutmaßlich der Ansicht waren, so weit vorne zu liegen dass AMD ihnen auch mit 7nm nicht wirklich gefährlich werden könnte.
"Verkackt" ist da nichts, das war ne reine Strategieentscheidung, für den fetten GA100 auf den schnellen/teuren 7nm-TSMC zu gehen und bei den RTX-Karten mit dem billigeren 10nm die Gewinnspanne zu erhöhen weil das reicht um gegen AMD vorne zu bleiben. Ob die Entscheidung richtig war zeigt sich dann in wenigen Monaten wenn der große Navichip gegen den großen Consumerampere antreten muss.

Du hast die letzten 18 Monate wohl im Winterschlaf gelegen? AMD hat seit Februar 2019 7nm Grafikkarten und seit Juli 2019 Prozessoren in 7nm auf dem Markt.
Und jetzt schauste mal wie lange der Sprung von 28 auf 14 nm gedauert hat (Q1 2012 - Q3 2016) und wie lange der von 14 auf 7 (Q3 2016 - Q2 2019) gedauert hat. In der Regel so 3-4 Jahre. Und dann rechnest du hoch, wann wir beim nächsten Node 5nm sind wenn es nochmal genauso lange dauert. Also 2019 + 3 oder 4 Jahre. Deswegen sagte ich wenns gut läuft 2022 bei AMD, eher aber 2023 bis eine breite Produktpalette verfügbar ist. Das hat nix mit Winterschlaf zu tun, das ist nur extrapoliert aus dem, was die letzten 10 Jahre so war. Was übrigens auch da schon immer so war ist, dass Roadmaps es immer früher angekündigt hatten und die Leute immer ewig gehyped waren bis wirklich was kam.
 
Zuletzt bearbeitet:
Wie meinst du das "ein Großteil der GPU-Hardware voraussichtlich gar nicht zum Einsatz kommt" ?

V100/A100 sind vollwertige GPUs und deren SMs gruppieren Integer, FP32 und FP64-Recheneinheiten und zudem noch die Tensor Cores.
In einem ersten Gedanken dachte ich HPC-technisch vorwiegend an die FP64-Leistung (die für den Linpack relevant ist) und damit an die FP64-Einheiten in den SMs (32 pro SM; bspw. bei Turing jedoch nur 2 pro SM). Ampere hat deutlich mehr SMs als Volta, erreicht jedoch rein nominell "gerade mal nur" 9,7 TFlops vs. 7,8 TFlops, was einer nahezu linearen Skalierung aufgrund der größeren Zahl an SMs zuzuschreiben ist (unter Berücksichtigung der Taktdifferenz). Mittelt man die Leistung von Selene auf die 2240 A100-GPUs, erzielt man jedoch einen weitaus größeren FP64-Zugewinn pro Karte, d. h. nur über die reinen FP64-Einheiten scheint der Zugewinn nicht erklärbar zu sein. In Ampere wurde den Tensor Cores v3 auch eine FP64-Funktionalität mitgegeben, die nVidia explizit für HPC-Workloads vorsieht, d. h. es bleibt zu vermuten, dass die Tensor Cores v3 in diesem HPC-Workload doch nicht brach liegen, wie ich in meinem ersten Gedankengang angenommen hatte.

*) Die CPU-Cores dürften hier nur eine untergeordnete Rolle spielen; wobei ich die in einer vereinfachenden Vergleichsrechnung schlicht ignoriert haben.
Rechnet man das äquivalent um, dann nutzt der Selene 64 Zen2-Kerne mit AVX2 pro 4 GPUs, bzgw. der Sierra nutzt 44 POWER9-Kerne mit AltiVec pro 4 GPUs, was kein weltbewegender Unterschied ist, der den beträchtlichen relativen Zugewinn des Ampere-basierten Systems erklären könnte.

Aber wie gesagt, bisher alles nur eine Vermutung, wenn vielleicht auch keine ganz unplausible, denn nVidia hat die neuen Tensor Cores v3 ja schließlich nicht zum Spaß erweitert und schreibt explizit: "For HPC, the A100 Tensor Core includes new IEEE-compliant FP64 processing that delivers 2.5x the FP64 performance of V100."
Ergänzend: Das mit der reinen Vermutung scheint hinfällig, denn in deren HPC SDK schreiben sie, dass dieses auch auf eine Verwednung der Tensor Cores hin optimiert ist (wo es möglich ist) d. h. nVidia hat hier mit der Erweiterung einen Weg gefunden, das Silizium effektiver zu nutzen, denn in Volta/Turing konnte man die Tensor Cores weitestgehend nur für AI-Workloads nutzen: "The NVIDIA HPC SDK math libraries are optimized for Tensor Cores and multi-GPU nodes to deliver the full performance potential of your system with minimal coding effort."
 
Zuletzt bearbeitet:
@gerX7a: Wobei die Tensor Cores ja auch mit FP32 für HPC einsetzbar wären, aber nicht so flexibel. Wenn man daran denkt, was diese Kerne an gleichzeitigen Operation durchführen und können und das jetzt auch mit FP64, das müssen regelrechte "Verdrahtungsmonster" sein.
 
@Locuza: Hm...

New TensorFloat-32 (TF32) Tensor Core operations in A100 provide an easy path to accelerate FP32 input/output data in DL frameworks and HPC, running 10x faster than V100 FP32 FMA operations or 20x faster with sparsity. For FP16/FP32 mixed-precision DL, the A100 Tensor Core delivers 2.5x the performance of V100, increasing to 5x with sparsity.
 
Zuletzt bearbeitet:
Bzgl. FP32 untersützen die Tensor Cores kein "reines" FP32, da deren Ursprung das MMA für AI-Berechnungen ist. In diesem Sinne kann man mit FP16 multiplizieren und dann auf FP16 (auf)addieren, was fürs Inferencing ausreichend ist (manchmal reicht hierfür gar eine Verarbeitung via INT8), fürs Training benötigt man i. d. R. jedoch eine etwas höhere Präzision und verwendet das MMA mit einer FP16 Multiplikation und einer Addition auf FP32.

@gauss: "Dann ist die zitierte Aussage im Grunde falsch..."

Eher nicht. TF32 ist quasi eine Art bfloat16-Konkurrent mit einer (etwas) höheren Präzision, die voraussichtlich selbst noch im Vergleich zu FP16/FP32-MMA zu vergleichbaren Resultaten bei höherer Performance führen dürfte.

"Compared to FP32, TF32 shows a 6x speedup training BERT, one of the most demanding conversational AI models. [...] To validate the accuracy of TF32, we used it to train a broad set of AI networks across a wide variety of applications from computer vision to natural language processing to recommender systems. All of them have the same convergence-to-accuracy behavior as FP32. That’s why NVIDIA is making TF32 the default on its cuDNN library which accelerates key math operations for neural networks."
 
@gauss: "Dann ist die zitierte Aussage im Grunde falsch..."

Eher nicht. TF32 ist quasi eine Art bfloat16-Konkurrent mit einer (etwas) höheren Präzision, die voraussichtlich selbst noch im Vergleich zu FP16/FP32-MMA zu vergleichbaren Resultaten bei höherer Performance führen dürfte.

Dass man eine fast so gute Genauigkeit bietet wie FP32, heißt nicht, dass es man es FP32 nennen darf. Ich finde die Aussage in dem zitierten Satz ziemlich irreführend.
 
Dass man eine fast so gute Genauigkeit bietet wie FP32, heißt nicht, dass es man es FP32 nennen darf. Ich finde die Aussage in dem zitierten Satz ziemlich irreführend.

Sie nennen es ja auch nicht FP32, sondern TF32. Ihr "TensorFloat-32" soll eine zu FP32 vergleichbare Genauigkeit haben und daher für diesen als performanterer Ersatz dienen, voraussichtlich daher die Namensgebung. Wenn das Ziel tatsächlich erreicht wird, durchaus nicht abwegig. Dafüber hinaus ist es ihr Kind und wenn sie es so nennen wollen ... ;-)

What is the TensorFloat-32 Precision Format? | NVIDIA Blog
 
Ich kann mich nur wiederholen: es läuft aktuell wirklich gut für AMD.

Und ich hoffe das dass auch länger so bleibt.:daumen:
 
Sie nennen es ja auch nicht FP32, sondern TF32. Ihr "TensorFloat-32" soll eine zu FP32 vergleichbare Genauigkeit haben und daher für diesen als performanterer Ersatz dienen, voraussichtlich daher die Namensgebung. Wenn das Ziel tatsächlich erreicht wird, durchaus nicht abwegig. Dafüber hinaus ist es ihr Kind und wenn sie es so nennen wollen ... ;-)

What is the TensorFloat-32 Precision Format? | NVIDIA Blog

Aber der Wertebereich ist aufgrund der kleineren Mantisse geringer.
 
Zurück