Geforce RTX 3060 Ti: Benchmark zeigt Nähe zur Radeon RX 6800

PCGH-Redaktion

Kommentar-System
Teammitglied
Jetzt ist Ihre Meinung gefragt zu Geforce RTX 3060 Ti: Benchmark zeigt Nähe zur Radeon RX 6800

Kurz vor Release von Nvidias neuer Mittelklassegrafikkarte Geforce RTX 3060 Ti gibt es auch neue Benchmark-Daten, die unmittelbar hinter AMDs Radeon RX 6800 liegen.

Bitte beachten Sie: Der Kommentarbereich wird gemäß der Forenregeln moderiert. Allgemeine Fragen und Kritik zu Online-Artikeln von PC Games Hardware sind im Feedback-Unterforum zu veröffentlichen und nicht im Kommentarthread zu einer News. Dort werden sie ohne Nachfragen entfernt.

lastpost-right.png
Zurück zum Artikel: Geforce RTX 3060 Ti: Benchmark zeigt Nähe zur Radeon RX 6800
 
Warum schriebt ihr nicht gleich die Vergleichswerte zur 3070 hin? Dann kann man wenigstens die Einflüsse der Architektur besser rausfiltern.
Man sieht hier doch direkt, dass die 6800 schlechter abschneidet als in eurem Index, da ist so ein Vergleichswert doch überhaupt nicht verwertbar. Der Vergleich zur 3070 hingegen schon, mal ausgerechnet für die Titelzeile:

RTX3060Ti ist 94,4% so schnell wie die RTX3070
oder
RTX3070 ist nur 5,9% vor der 3060Ti
 
Warum schriebt ihr nicht gleich die Vergleichswerte zur 3070 hin? Dann kann man wenigstens die Einflüsse der Architektur besser rausfiltern.
Weil sie dann sowas wie "Journalismus" betreiben müssten und sich hier nur wenige mit der Hardware und Vergleichsmethodiken auskennen.

Die RTX 3060Ti wird in den meisten Fällen keine Chance gegen eine Rx 6800 haben - deren Konkurrent ist die 3070 und Nvidia wird sicher nicht ihr eigenes Lineup angreifen.
Die Preise werden aber so oder so viel zu hoch sein.... 400€........ die
 
Da hier nur Werte eines synthetischen Benchmarks vorliegen, sind die erst mal mit Vorsicht zu genießen. Wie GEChun schon skizzierte (wenn auch etwas übertrieben) liegt die RX 6800 tendenziell vor der RTX 3070, d. h. die RTX 3060 Ti, wird sich sicherlich noch ein Stück dahinter einordnen, denn zweifelsfrei soll diese nicht mit der hauseigenen RTX 3070 konkurrieren.
Offensichtlich liegt sie aber auch anscheinend nicht ganz so weit dahinter, was erklären würde, warum AMD die RX 6700 XT auf einen derart hohen Takt prügelt, der schon weit jenseits des Sweet Spot liegen wird. Ohne diesen würde die Distanz zur RTX 3060 Ti vermutlich zu groß werden, sodass man zu sehr mit dem Preis runtergehen müsste, was man zwecks höherem Umsatz und besserer Marge natürlich vermeiden möchte.
Igor hat bereits einige BIOSe geteasert. Ein Modell arbeitet hier mit bis zu 211 W TGP, d. h. da kommt dann noch das Kühlsystem hinzu, d. h. die Karte zieht also in etwa vergleichbar viel wie eine RTX 3070, d. h. die sollte sich schon besser grob in deren Leistungsbereich bewegen, denn andernfalls wäre die RX 6700 XT recht ineffizient.
Letzten Endes kommt ein solcher Schritt, wenn es technisch irgendwie machbar ist, auch nicht unerwartet, denn die grundsätzlichen Designentscheidungen wurden schon vor langer Zeit getroffen und jetzt kann man nur noch an etwas wie dem Takt schrauben, insbesondere bei so etwas wie der RX 6700 XT, die voraussichtlich den Vollausbau von Navi 22 darstellen wird (d. h. mehr Shader kann man nicht freischalten). Ohne hohen Takt kann man hier nicht konkurrieren und müsste mit dem Preis runtergehen. Leicht absehbar, weil bereits die RX 6800 sich nur geringfügig von der RTX 3070 absetzen kann, die mit ihren weitaus stärker überarbeiteten Shader-Kernen einen höhere Pro-Shader-Leistung aufweist:
o RTX 3070 , 2944 Shader, 1,725 GHz
o RX 6800, 3840 Shader, 2,105 GHz
Die RDNA2-Karte benötigt also deutlich mehr Shader und noch einen höheren Takt um hier mitzuhalten. Beim Vergleich der RX 6700 XT zur RTX 3060 Ti würde es hier ohne einen nochmals gesteigerten Takt schlecht aussehen und man könnte allerbestenfalls mit einer vergleichbaren, wenn nicht gar leicht niedrigeren Leistung aufwarten, denn erstere hat 2560 Shader (40 CUs) letztere hat mit 2432 Shadern (38 SMs) nur unwesentlich weniger, d. h. ein Standard-RDNA2-Boost um die 2,1 - 2,2 GHz wäre absehbar nicht genug.
Mit Taktraten um die 2,7 GHz darf man jedoch annehmen, dass die RX 6700 XT schlussendlich leicht schneller ausfallen wird als die RTX 3060 Ti, denn vermutlich gibt es hier im nVidia-Design keine Reserven für eine deutliche Taktanhebung. Absehbar wird die Karte aber auch ineffizienter sein, da sie sich weit jenseits ihres Sweet Spots bewegen wird.
 
Zuletzt bearbeitet:
Ohne hohen Takt kann man hier nicht konkurrieren und müsste mit dem Preis runtergehen. Leicht absehbar, weil bereits die RX 6800 sich nur geringfügig von der RTX 3070 absetzen kann, die mit ihren weitaus stärker überarbeiteten Shader-Kernen einen höhere Shader-Leistung aufweist:
RTX 3070 , 2944 Shader, 1,725 GHz
RX 6800, 3840 Shader, 2,105 GHz
Jetzt muss man sich mal entscheiden... nimmt man die 5888 Shader Kerne (edit: die sich aus den 2944 FP32 Kernen und den 2944 FP16 Kernen im FP32 Modus zusammensetzen /Edit) aus den Nvidia Marketing Folien, oder die 2944 physischen, reinen FP32 Kerne?
Bei den synthetischen Benchmarks werden wohl auch die FP 16 Kerne in den FP32 Modus schalten und so effektiv 5888 Kerne ergeben.
Bei Spielen ist man allerdings eher im Bereich der reinen FP32 Kerne, da es dort auch FP16 Berechnungen gibt.

Daher kann man nicht wirklich sagen, dass AMD deutlich mehr Kerne und Takt für die gleiche Leistung braucht.
Dann würde man die Änderungen am FP16 Teil der Nvidia Kerne ignorieren.
 
Da gibt es nicht wirklich was zu entscheiden. An Ampere's CUDA-Cores hat sich einiges verändert, aber es sind relativ gesehen nicht wirklich viel mehr Cores geworden und auch an dem übrigen Design hat sich ansonsten ja auch nichts grundlegend verdoppelt. *) Dass nVidia sich hier marketingtechnisch zu einer doppelten Ausweisung berufen fühlte, ist aus der Marketingdomäne heraus leicht nachvollziehbar und letzten Endes könnte man es so zählen, wenn man es denn drauf anlegt, nur wird man in Spielen niemals die doppelte Leistung erhalten. **)
Btw ... wenn Ampere seine Nähe zu Turing beibehalten hat, gibt es weiterhin keine FP16-EInheiten sondern nur eine FP32- und eine kombinierte FP32/INT32-Einheit in den CUDA Cores. Turing berechnet FP16-Operation über die Tensor Cores. Ohne gegenteilige Erklärung darf man annehmen, dass Ampere das ebenso handhaben wird. Bei den kleineren Turings ohne Tensor Cores wurden daher explizit zusätzliche FP16-Funktionseinheiten dem Design hinzugefügt (die jedoch deutlich weniger Platz beanspruchten, als die gestrichenen Tensor Cores v2).

*)
RTX 2070 | Super | RTX 3070 | RTX 2080
SMs : 36 | 40 | 46 | 46
Cores/ALUs: 2304 | 2560 | 2944 | 2944
TMUs : 144 | 160 | 184 | 184
ROPs : 64 | 64 | 96 | 64

**) So bspw. bei der RTX 3070 FE die 20,4 TFlops Peak-Leistung, weil das eine Mischkalkulation ist und Spiele grundlegend zu etwa 1/5 bis 1/3 aus INT-Operationen auf den GPUs, also in den Shaderprogrammen, bestehen (der Anteil schwankt in Abhängigkeit von der jeweiligen Game-Engine und dem jeweiligen Titel).
Letzten Endes hat nVidia hier mehr Leistung in die CUDA Cores gebracht und dafür auf eine übermäßige Takterhöhung verzichtet, den beides gleichzeitig wäre nicht gegangen.
AMD dagegen verwendet seinen klassischen Shader-Aufbau mit weiterhin unveränderten ~ 0,128 TFlops pro CU pro GHz und benötigt daher bei gleicher Shaderanzahl natürlicherweise einen höheren Takt, denn nVidias theoretischer FP32-Durchsatz pendelt nun in Abhängigkeit konkreter Titel zwischen den 0,128 bis 0,256 TFlops pro SM pro GHz, d. h. die IPC liegt hier grundlegend höher. ***)
Eine simple Designentscheidung, wobei ein Kompromiss zu treffen war. Pauschal mehr Takt und weniger Pro-Shader-Leistung oder leistungsstärkere Shader mit einem höheren Durchsatz aber dafür weniger Takt. nVidia kam möglicherweise letztere Variante entgegen aufgrund der Verwendung des 8N (8LPP), jedoch ist das bisher nicht mehr als eine Spekulation meinerseits. TSMCs N7 hat sicherlich ein paar mehr Reserven, aber ob nVidia nicht auch anders herum hätte implementieren können, ist unklar.

***) An dem Wert von ~ 0,128 TFlops pro CU/SM pro GHz bei den GPUs hat sich in den letzten Jahren nichts verändert. Kompensiert man die SM-Gruppierung der älteren nVidia-GPUs, dann haben Maxwell, Pascal, Volta, Turing und bei AMD Vega 10, Polaris, Vega 20 und Navi 10 und jetzt auch Navi 21 alias RDNA2 alle das gleiche FP32-TFlops-IPC-Niveau von ~ 0,128 TFlops pro CU/SM pro GHz. Erst mit Ampere hat sich hier eine größere Änderung ergeben, indem nVidia eine zweite FP32-Einheit hinzufügte.
 
Zuletzt bearbeitet:
Ah, Sorry, hatte die INT16 mit den FP Einheiten vermischt.
Es bleibt halt dabei, dass die Int Einheiten in synthetischen Benchmarks auch FP Berechnungen können und in aktuell realen Lasten eben nicht.
Daher bleibt die Aussage korrekt, dass man nicht sagen kann, AMD bräuchte mehr Kerne und Takt für die gleiche Leistung.
Effektiv nutzt Nvidia in Synthetischen Benchmarks eben die INT16 Einheiten mit für die FP Berechnungen und damit 5888 Kerne bei der 3060 TI.
Das lässt die Karte in diesen Fällen deutlich besser aussehen, als sie mit aktuellen Spielen je sein wird.
Für reine Compute Programme, die nur FP32 nutzen, stimmt die Leistung allerdings.
Da hatte AMD ja auch schon gesagt, dass die Spiele GPUs nicht mehr so stark im Compute Bereich sein werden und die kommenden CDNA GPUs diese Aufgabe übernehmen.
 
Zurück