[...] Bin unsicher ob man das unter den Umständen überhaupt noch mit irgendwas vergleichen kann^^
Das Ergebnis kann man durchaus vergleichen, nur muss man aufpassen bei der weiteren Verwendung der gewonnenen Erkenntnisse.
Schlussendlich skaliert die Leistung hier weitestgehend linear mit der Anzahl der SMs und dem Takt (
was wenig überraschend ist), da hier schlicht größtenteils die FP32-Einheiten herangezogen werden und da man hier nVidia-intern vergleicht, ist der Aufbau sehr ähnlich, d. h. 64 Einheiten pro SM. *)
Verarbeitet man die in der Quelle direkt mit ausgewiesenen Vergleichswerte, so pendelt der TU102 im Bereich von 2,43 - 2,54 OC4 Punkten/SM*Takt. **)
Ampere in Form des A100/PCIe erreicht hier nun 2,93 OC4 Punkten/SM*Takt. Die Leistung skaliert hier relativ linear und hinzu kommt ein relevanter Zugewinn, der dem deutlich überarbeiteten Speichersubsystem/Cache zuzuschreiben sein dürfte. Beispielsweise eine hochgerechnete Quadro 8000 auf die Eckdaten einer A100 würde zu etwa 383 OC4 Punkten führen, d. h. die Differenz zu den gemessenen 446 OC4 Punkten der A100/PCIe dürften weitestgehend dem Speichersubsystem/Cache zuzuschreiben sein, denn an den FP32-Einheiten selbst lässt sich mittlerweile nichts mehr relevant optimieren.
Schlussendlich also keine Überraschungen, sondern schlicht eine Frage der Skalierung der Anzahl der HW-Einheiten. Mit Blick auf Consumer-Ampere kann man hier jedoch nur eingeschränkt etwas anfangen, denn der Wert ist ähnlich Aussagekräftig wie eine allgemeine TFlops-Angabe. Das Problem bei den Consumer-Karten ist zusätzlich, dass ein Teil des (beim A100 beobachteten) Zugewinns durch das leistungsfähigere Speichersubsystem/Cache entfällt, denn einerseits werden die Karten kein HBM2 nutzen (hier immerhin 1,5 TB/s) und andererseits darf man auch davon ausgehen, dass die lokalen Caches hier möglicherweise etwas reduziert sein werden i. V. z. GA100.
Darüber hinaus bleibt die nur sehr eingeschränkte Aussagefähigkeit der (effektiven) TFlops bzgl. einer Fps/Gaming-Betrachtung. Bezüglich der normalen Rasterizer-Leistung wird auch der Consumer-Ampere weitestgehend linear mit der Anzahl der SMs und deren Takt skalieren. Darüber hinaus wird auch hier die Überarbeitung des Speichersubsystem/Cache (in Verbindung mit dem sehr schnellen GDDR6) einige zusätzliche Prozentpunkte auffschlagen können, jedoch voraussichtlich weniger als beim (G)A100. Hat man erst einmal verlässliche Eckdaten wie SMs, Takt und ggf. Cachegrößen, kann man die allgemeine Leistung bereich relativ gut hochrechnen.
Einzig wo es noch ein großes Fragezeichen gibt, ist die Raytracing-Leistung. Wie viel man architektonisch noch an den festverdrahteten Intersection-Einheiten optimieren kann, kann nur nVidia beantworten, da die sich hier recht bedeckt halten bzgl. implementationstechnischen Details. Was nVidia aber natürlich grundsätzlich machen kann ist, dass man mehr als nur einen "RT Core" pro SM implementiert. Darüber hinaus profitiert natürlich auch die BVH-Traversierung grundsätzlich von einem etwas leistungsfähigerem Speichersubsystem/Cache.
Bei AMD/RDNA2 wird es bzgl. der grundlegenden Leistung übrigens nicht anders aussehen. Auch hier wird die Leistung recht linear mit der Anzahl der CUs und des Takts skalieren. Die von AMD versprochenen Zugewinne mit Blick auf Perf/Watt ermöglichen es AMD lediglich das Design hochzuskalieren, denn bspw. ein 80 CU-Navi 10-Design wäre verbrauchtechnisch nicht möglich gewesen und hätte zu einer 400+ W-Karte geführt.
Und auch hier bleibt analog das große Fragezeichen bei der Raytracing-Leistung. Die Intersection-Einheiten residieren hier in den TMUs und die TMUs geben den Programmfluss nach jeder einzelnen Berechnung an den SP zurück. Man wird sehen wie diese Implementation im Vergleich zu nVidia's Architektur performed. Der Countdown läuft, nur noch ein paar Wochen ...
*) Beispielsweise bei simulationslastigen HPC-Workloads würde sich dagegen ein größerer Bruch auftun zwischen den Consumer-Karten und Volta/Ampere als GA100, weil die Consumer-Varianten nur noch zwei FP64-Einheiten zur Kompatibilität pro SM haben, während der GV100 und der GA100 32 FP64-Einheiten pro SM besitzen.
**) Auch die 2080 Super reiht sich sehr gut in diesen Wertebereich ein, wobei man jedoch beachten muss, welchen Takt man anrechnet. Bei den Beispielwerten geht deren gemitteltes Ergebnis auf 164 Einzelergebnisse zurück. Die FE hat einen Boost-Takt von 1,815 GHz, was zu 2,65 OC4 Punkten/SM*Takt führt. Geht man davon aus, dass hier tendenziell eher Custom-Designs in den Ergebnissen vertreten sind, die bereits wieder bis zu 1,90+ GHz erreichen, landet man auch hier wieder bei den bekannten 2,53 OC4 Punkten/SM*Takt.