@TheEndOfTheWorld / Illithide:
Bezüglich der TFlops bei Ampere gibt es nichts zu orakeln, das ist relativ trivial.
Zwei FP32-Einheiten pro CUDA Core, die bestenfalls jeweils eine FMA-Operation pro Takt ausführen können. Eine FMA-Operation sind eine Multiplikation und eine Addition, also zwei Flops.
Dementsprechend skalieren die offiziellen Peak-Angaben linear mit den CUDA-Cores und dem Takt, so bei der
RTX 3090 : 5248 Cores * 2 Units * 2 Flops * 1,70 GHz = 35686 GFlops ~ 35,7 TFlops
RTX 3080 : 4352 Cores * 2 Units * 2 Flops * 1,71 GHz = 29768 GFlops ~ 29,8 TFlops
Anders ausgedrückt: 128 FMA-Operationen pro CUDA Core bzw. 256 Flops pro CUDA Core pro Takt. Zu berücksichtigen ist nur, dass nVidia nun die CUDA Cores in "verdoppelter" Anzahl ausgibt, faktisch wurde jedoch nicht ein kompletter CUDA Core verdoppelt. Da FP32 für heutige Game Engines jedoch weitaus wichtiger ist als bspw. die Integer-Leistung, ist eine derartige Angabe durchaus legitim, wenn sie auch nicht ganz akkurat den technischen Sachverhalt spiegelt.
Ist übrigensd die gleiche Rechnung für aktuelle AMD-GPUs wie Navi 10 oder Vega 20, nur dass hier nur maximal eine FMA-Operation pro SP ausgeführt werden kann und ab RDNA ist zu beachten, dass AMD die Taktangaben anders angibt und hier etwas optimistisch hoch greift und den (Base, Game,) Boost-Takt für die Ermittlung der Maximalperformance verwendet:
Radeon VII : 3840 SPs * 2 Flops * 1,80 GHz = 13824 GFlops ~ 13,8 TFlops
RX 5700 XT : 2560 SPs * 2 Flops * 1,905 GHz = 9754 GFlops ~ 9,8 TFlops
Oder auch für Turing:
RTX 2080 Ti : 4352 Cores * 2 Flops * 1,635 GHz = 14231 GFlops ~ 14,2 TFlops
(Die GPU kann je nach Herstellerauslegung um die 1,9 GHz Peak erreichen, was zu ~ 16,5 TFlops führen würde.
Eine Titan RTX/Quadro RTX 6000 erreicht dagegen bereits mit ihrem regulären Boost-Takt ~ 16,3 TFlops.)
Ergänzende Anmerkung zu den Konsolen: Deren RDNA2 verbleibt architektonisch bei einer FMA-Operation pro SP. Ob AMD das RDNA2 für die dGPUs erweitert hat, wird man dagegen abwarten müssen. Falls nicht, wird man bei dem größten Chip wohl realistisch bestenfalls mit grob um die 20 TFlops FP32 rechnen dürfen.