Nvidia Ampere: A100 mit höchstem Ergebnis im Octane-Benchmark

PCGH-Redaktion

Kommentar-System
Teammitglied
Jetzt ist Ihre Meinung gefragt zu Nvidia Ampere: A100 mit höchstem Ergebnis im Octane-Benchmark

Nvidias A100 hat im Octane-Benchmark das höchste aller Ergebnisse erzielt. Rückschlüsse auf Gaming-Grafikkarten der Ampere-Serie, etwa einer Geforce RTX 3080 Ti, lässt das aber nicht zu. Es handelt sich schließlich um eine professionelle Grafikkarte und einen eher speziellen Benchmark.

Bitte beachten Sie: Der Kommentarbereich wird gemäß der Forenregeln moderiert. Allgemeine Fragen und Kritik zu Online-Artikeln von PC Games Hardware sind im Feedback-Unterforum zu veröffentlichen und nicht im Kommentarthread zu einer News. Dort werden sie ohne Nachfragen entfernt.

lastpost-right.png
Zurück zum Artikel: Nvidia Ampere: A100 mit höchstem Ergebnis im Octane-Benchmark
 
"Rückschlüsse auf Gaming-Grafikkarten der Ampere-Serie, etwa einer Geforce RTX 3080 Ti, lässt das aber nicht zu. Es handelt sich schließlich um eine professionelle Grafikkarte und einen eher speziellen Benchmark."

Und welchen Gamer juckt so ne belanglose INFO ?!?

MfG Föhn.
 
"Rückschlüsse auf Gaming-Grafikkarten der Ampere-Serie, etwa einer Geforce RTX 3080 Ti, lässt das aber nicht zu. Es handelt sich schließlich um eine professionelle Grafikkarte und einen eher speziellen Benchmark."

Und welchen Gamer juckt so ne belanglose INFO ?!?

MfG Föhn.

1. Lesen hier nicht nur reine Gamer. Beruflich nutze ich z.B. eine Quadrokarte. Und es gibt sicher welche, die auch teure Karten verwenden, oder evtl. solche Karten in ihrer Firma einkaufen und einbauen dürfen.
2. Soll dieser spezielel Hinweis an Gamer gerichtet sein,d ass man das eben nicht einfach so mal eben auf die Gameingplattform übertragen kann und darf.
3. Gibt es Menschen, die generell an Technikinfos interessiert sind, egal ob sie es nutzen, oder eben nicht.

Die News ist also absolut nicht belanglos.
Und eben weil du dich hier herumtreibst, mus sman es dir ja anscheinend extra erklären, damit du nicht gleich denkst, boah, Ampere wird der Mega Hammer mit über 40% mehr Wums, oder, Mist, nur knapp über 40%, je nachdem, wieviel man sich erhofft hat.
 
Der Vergleichswert für den A100 ist eben auch GP100 oder GV100.

Das Interessante ist, dass Octane eigentlich auch RTX unterstützt - GA100 aber keine RT Cores hat, also alles über die Shader rechnet. Dafür ist das Ergebnis sehr beeindruckend.

Der Bench lief mit "RTX off" und wurde für das bisher einzig vom GA100 unterstützte Cuda11 vollständig rekompiliert.

Bin unsicher ob man das unter den Umständen überhaupt noch mit irgendwas vergleichen kann^^
 
Der Vergleichswert für den A100 ist eben auch GP100 oder GV100.

Das Interessante ist, dass Octane eigentlich auch RTX unterstützt - GA100 aber keine RT Cores hat, also alles über die Shader rechnet. Dafür ist das Ergebnis sehr beeindruckend.

So wie die Turing Ergebnisse auch. Da wurden die RT Cores auch nicht genutzt.

Der Octanebench 4.0 unterstützt keine RT Cores, RT cores werden nur in dem gesonderten 2019 Preview Build supportet. OTOY Forums • View topic - RTX OctaneBench 2019 Preview . RTX support wird bald in den normalen Build integriert (Version 2020)

Mit RTX hat die 2080Ti über 1200 Punkte, weit über dem RTX off Ergebnis (300 irgendwas)

Die Turing-Karten wurden mit RTX on gebencht.

Nein, eben nicht. Octanebench Version 4 unterstützt keine RT cores. Der Benchmark vergleicht rein die Shader-Compute Leistung.
 
Zuletzt bearbeitet:
[...] Bin unsicher ob man das unter den Umständen überhaupt noch mit irgendwas vergleichen kann^^

Das Ergebnis kann man durchaus vergleichen, nur muss man aufpassen bei der weiteren Verwendung der gewonnenen Erkenntnisse.
Schlussendlich skaliert die Leistung hier weitestgehend linear mit der Anzahl der SMs und dem Takt (was wenig überraschend ist), da hier schlicht größtenteils die FP32-Einheiten herangezogen werden und da man hier nVidia-intern vergleicht, ist der Aufbau sehr ähnlich, d. h. 64 Einheiten pro SM. *)
Verarbeitet man die in der Quelle direkt mit ausgewiesenen Vergleichswerte, so pendelt der TU102 im Bereich von 2,43 - 2,54 OC4 Punkten/SM*Takt. **)
Ampere in Form des A100/PCIe erreicht hier nun 2,93 OC4 Punkten/SM*Takt. Die Leistung skaliert hier relativ linear und hinzu kommt ein relevanter Zugewinn, der dem deutlich überarbeiteten Speichersubsystem/Cache zuzuschreiben sein dürfte. Beispielsweise eine hochgerechnete Quadro 8000 auf die Eckdaten einer A100 würde zu etwa 383 OC4 Punkten führen, d. h. die Differenz zu den gemessenen 446 OC4 Punkten der A100/PCIe dürften weitestgehend dem Speichersubsystem/Cache zuzuschreiben sein, denn an den FP32-Einheiten selbst lässt sich mittlerweile nichts mehr relevant optimieren.

Schlussendlich also keine Überraschungen, sondern schlicht eine Frage der Skalierung der Anzahl der HW-Einheiten. Mit Blick auf Consumer-Ampere kann man hier jedoch nur eingeschränkt etwas anfangen, denn der Wert ist ähnlich Aussagekräftig wie eine allgemeine TFlops-Angabe. Das Problem bei den Consumer-Karten ist zusätzlich, dass ein Teil des (beim A100 beobachteten) Zugewinns durch das leistungsfähigere Speichersubsystem/Cache entfällt, denn einerseits werden die Karten kein HBM2 nutzen (hier immerhin 1,5 TB/s) und andererseits darf man auch davon ausgehen, dass die lokalen Caches hier möglicherweise etwas reduziert sein werden i. V. z. GA100.
Darüber hinaus bleibt die nur sehr eingeschränkte Aussagefähigkeit der (effektiven) TFlops bzgl. einer Fps/Gaming-Betrachtung. Bezüglich der normalen Rasterizer-Leistung wird auch der Consumer-Ampere weitestgehend linear mit der Anzahl der SMs und deren Takt skalieren. Darüber hinaus wird auch hier die Überarbeitung des Speichersubsystem/Cache (in Verbindung mit dem sehr schnellen GDDR6) einige zusätzliche Prozentpunkte auffschlagen können, jedoch voraussichtlich weniger als beim (G)A100. Hat man erst einmal verlässliche Eckdaten wie SMs, Takt und ggf. Cachegrößen, kann man die allgemeine Leistung bereich relativ gut hochrechnen.

Einzig wo es noch ein großes Fragezeichen gibt, ist die Raytracing-Leistung. Wie viel man architektonisch noch an den festverdrahteten Intersection-Einheiten optimieren kann, kann nur nVidia beantworten, da die sich hier recht bedeckt halten bzgl. implementationstechnischen Details. Was nVidia aber natürlich grundsätzlich machen kann ist, dass man mehr als nur einen "RT Core" pro SM implementiert. Darüber hinaus profitiert natürlich auch die BVH-Traversierung grundsätzlich von einem etwas leistungsfähigerem Speichersubsystem/Cache.

Bei AMD/RDNA2 wird es bzgl. der grundlegenden Leistung übrigens nicht anders aussehen. Auch hier wird die Leistung recht linear mit der Anzahl der CUs und des Takts skalieren. Die von AMD versprochenen Zugewinne mit Blick auf Perf/Watt ermöglichen es AMD lediglich das Design hochzuskalieren, denn bspw. ein 80 CU-Navi 10-Design wäre verbrauchtechnisch nicht möglich gewesen und hätte zu einer 400+ W-Karte geführt.
Und auch hier bleibt analog das große Fragezeichen bei der Raytracing-Leistung. Die Intersection-Einheiten residieren hier in den TMUs und die TMUs geben den Programmfluss nach jeder einzelnen Berechnung an den SP zurück. Man wird sehen wie diese Implementation im Vergleich zu nVidia's Architektur performed. Der Countdown läuft, nur noch ein paar Wochen ...


*) Beispielsweise bei simulationslastigen HPC-Workloads würde sich dagegen ein größerer Bruch auftun zwischen den Consumer-Karten und Volta/Ampere als GA100, weil die Consumer-Varianten nur noch zwei FP64-Einheiten zur Kompatibilität pro SM haben, während der GV100 und der GA100 32 FP64-Einheiten pro SM besitzen.

**) Auch die 2080 Super reiht sich sehr gut in diesen Wertebereich ein, wobei man jedoch beachten muss, welchen Takt man anrechnet. Bei den Beispielwerten geht deren gemitteltes Ergebnis auf 164 Einzelergebnisse zurück. Die FE hat einen Boost-Takt von 1,815 GHz, was zu 2,65 OC4 Punkten/SM*Takt führt. Geht man davon aus, dass hier tendenziell eher Custom-Designs in den Ergebnissen vertreten sind, die bereits wieder bis zu 1,90+ GHz erreichen, landet man auch hier wieder bei den bekannten 2,53 OC4 Punkten/SM*Takt.
 
Zurück