Wie meinst du das "ein Großteil der GPU-Hardware voraussichtlich gar nicht zum Einsatz kommt" ?
V100/A100 sind vollwertige GPUs und deren SMs gruppieren Integer, FP32 und FP64-Recheneinheiten und zudem noch die Tensor Cores.
In einem ersten Gedanken dachte ich HPC-technisch vorwiegend an die FP64-Leistung (die für den Linpack relevant ist) und damit an die FP64-Einheiten in den SMs (32 pro SM; bspw. bei Turing jedoch nur 2 pro SM). Ampere hat deutlich mehr SMs als Volta, erreicht jedoch rein nominell "gerade mal nur" 9,7 TFlops vs. 7,8 TFlops, was einer nahezu linearen Skalierung aufgrund der größeren Zahl an SMs zuzuschreiben ist (unter Berücksichtigung der Taktdifferenz). Mittelt man die Leistung von Selene auf die 2240 A100-GPUs, erzielt man jedoch einen weitaus größeren FP64-Zugewinn pro Karte, d. h. nur über die reinen FP64-Einheiten scheint der Zugewinn nicht erklärbar zu sein. In Ampere wurde den Tensor Cores v3 auch eine FP64-Funktionalität mitgegeben, die nVidia explizit für HPC-Workloads vorsieht, d. h. es bleibt zu vermuten, dass die Tensor Cores v3 in diesem HPC-Workload doch nicht brach liegen, wie ich in meinem ersten Gedankengang angenommen hatte.
*) Die CPU-Cores dürften hier nur eine untergeordnete Rolle spielen; wobei ich die in einer vereinfachenden Vergleichsrechnung schlicht ignoriert haben.
Rechnet man das äquivalent um, dann nutzt der Selene 64 Zen2-Kerne mit AVX2 pro 4 GPUs, bzgw. der Sierra nutzt 44 POWER9-Kerne mit AltiVec pro 4 GPUs, was kein weltbewegender Unterschied ist, der den beträchtlichen relativen Zugewinn des Ampere-basierten Systems erklären könnte.
Aber wie gesagt, bisher alles nur eine Vermutung, wenn vielleicht auch keine ganz unplausible, denn nVidia hat die neuen Tensor Cores v3 ja schließlich nicht zum Spaß erweitert und schreibt explizit: "
For HPC, the A100 Tensor Core includes new IEEE-compliant FP64 processing that delivers 2.5x the FP64 performance of V100."
Ergänzend: Das mit der reinen Vermutung scheint hinfällig, denn in deren HPC SDK schreiben sie, dass dieses auch auf eine Verwednung der Tensor Cores hin optimiert ist (wo es möglich ist) d. h. nVidia hat hier mit der Erweiterung einen Weg gefunden, das Silizium effektiver zu nutzen, denn in Volta/Turing konnte man die Tensor Cores weitestgehend nur für AI-Workloads nutzen: "
The NVIDIA HPC SDK math libraries are optimized for Tensor Cores and multi-GPU nodes to deliver the full performance potential of your system with minimal coding effort."