RTX 3080 mit 20 GiB und 3070 mit 16 GiB: Release noch dieses Jahr?

Bevier · 8. Oktober 2020

gerX7a schrieb:
Stellst du dich nur Dumm oder ...? Für AMD geistern zurzeit 256 Bit (zzgl. InfinityCache) durch die Gerüchteküche. Ampere hat 384 bzw. 320 Bit, d. h. egal ob mit einfachem oder doppeltem Speicherausbau wird die Bandbreite unverändert hoch und in beiden Fällen gar deutlich höher liegen als bei AMD und genau deswegen ist AMD bei den RDNA2-GPUs auf den InfinityCache angewiesen.
Du hast ursprünglich geschrieben "aber bei AMD ist ein gleich großes Speicherinterface zu schmal?". AMD hat kein gleich großes SI.
Und deine Rechenkünste im kleinen Ein-mal-Eins können anscheinend deine Logikschwächen auch nicht kompensieren, denn (so hoffen zumindest alle Fans) das große 80 CU-Design wird eine RTX 3080 überbieten oder gar mit einer RTX 3090 konkurrieren können, d. h. hier hat man einen extrem bandbreitenfordernden, großen Chip mit einem sehr kleinen Interface. Bei den Ampere-Modellen mit mehr Speicher dagegen ändern sich die Anforderungen des Chips nicht, denn mindestens bei der größeren RTX 3080 kann man davon ausgehen, dass die performancetechnisch nicht nennenswert zulegen wird und daher gibt es hier auch keine zusätzlichen Bandbreitenanforderungen beim SI.
Wenn du Rummeckern willst, dann lies dir vielleicht zuvor noch einmal durch, was du selbst geschrieben hast bevor du auf Abesenden/Antworten klickst, denn das war und ist Unsinn, da nach aktuellem Stand AMD kein gleich großes SI besitzt, konkret noch nicht eimal relativ/im Verhältnis gesehen.
Aber wie schon erklärt ist die technische Sachlage auch nicht das Problem, denn dafür gibt es den InfinityCache; das Problem war lediglich deine Formulierung.

Und wo unterscheiden sich 320 Bit für 20 GB von 256 für 16? Ich kann schienbar Mahtematik, du nicht...

Basileukum · 8. Oktober 2020

ChrisMK72 schrieb:
Is die 90er etwa vergleichbar mit Turing Karten ?

Ne 80er is ne 80er. Feddich.
Das passt doch auch von Preis(siehe Launchpreise 1080) und Speicherbestückung(weniger als 2080Ti).

Also kann man die 80er nicht mit der 80Ti von Turing vergleichen, sondern mit der 80er Turing(und davor 80er Pascal).

Das stimmt, aber da ist ja generell die Aufstellung im Arsch. Wie willst da nun zwischen 3080 und der 3090 noch ne 3080ti plazieren? Zwar mehr VRam, was wichtig wäre, aber dann? 5% Mehrleistung?

Eigentlich sollte ja die 3090 eher sowas wie ne Titan sein, mit 40% + an Leistung zur 3080, aber wegen den 15%-20% + , da kannst nun schwer was dazwischen schieben.

gerX7a · 8. Oktober 2020

ChrisMK72 schrieb:
Is die 90er etwa vergleichbar mit Turing Karten ?

Ne 80er is ne 80er. Feddich.
Das passt doch auch von Preis(siehe Launchpreise 1080) und Speicherbestückung(weniger als 2080Ti).

Also kann man die 80er nicht mit der 80Ti von Turing vergleichen, sondern mit der 80er Turing(und davor 80er Pascal).

Diese 80er ist das HighEnd-Topmodell für den Mainstream. Darüber hinaus gibt es nur noch die 3090 für Enthusiasts deutlich jenseits der 1000 €, was sich praktisch so gut wie kaum ein Gamer gönnt (oder leisten kann/will). Gemäß PCGH in 4K liefert die gemittelt in MaxedOut-Settings +105 % Fps ggü. einer 5700XT, +64 % ggü. einer 2080 Super und immer noch +35 % ggü. einer 2080 Ti, die man billigstenfalls für 1000 € bekam, d. h. +35 % reales Performance-Plus und -30 % weniger beim Preis (wenn man geduldig ist; bereits mit dem Erscheinen der AMD-Karten sollten sich die Händler wieder etwas beruhigen ;-)

)

Bevier schrieb:
Und wo unterscheiden sich 320 Bit für 20 GB von 256 für 16? Ich kann schienbar Mahtematik, du nicht...

BigNavi, 256 Bit, 448 GiB/s mit 14 Gbps bis zu 512 GiB/s mit 16 Gbps. (18 Gbps werden unwahrscheinlich, da die Bausteine bisher laut Igor kaum verfügbar waren/sind) Wenn der Cache gar gut funktionert, wird BigNavi gar nur die gleiche Speicherbandbreite wie eine einfache RX 5700 oder RTX 2060 Super haben.

Ampere, 320 Bit, 760 GiB/s (egal ob mit 10 oder 20 GiB), also +48 % bis +70 % höhere Speicherbandbreite

Das mit dem "Schein" ist so eine Sache. ;-)

Darüber hinaus kommt noch hinzu, dass AMD mit 80 CUs den deutlich größeren Chip mit mehr Ausführungseinheiten hat, der dementsprechend auch höhere Anforderungen stellen sollte. Endsprechend gut muss auch der InfinityCache sein, denn sonst würden die SPs "verhungern". Man könnte jetzt natürlich dagegen argumentieren, dass nVidia ja nun vergrößerte CUDA Cores verwendet, aber dann sollte man sich nun mal auch festlegen, ob man die nun als echte 8704 Cores zählen will oder die nur als Fake-Cores bezeichnet. ;-)

Grundsätzlich aber auch irrelevant, insbesondere, wenn man unterstellt/hofft, dass das größte Modell etwas schneller als die 3080 sein soll/wird.
Es wird interessant zu beobachten sein, ob und wie der Cache das schmalbandige SI kompensiert und ob der möglicherweise darüber hinaus noch irgend einen zusätzlichen Vorteil bietet, ggf. beim Raytracing?

Incredible Alk · 8. Oktober 2020

gerX7a schrieb:
Es wird interessant zu beobachten sein, ob und wie der Cache das kompensiert und ob der möglicherweise darüber hinaus noch irgend einen zusätzlichen Vorteil bietet

Inwiefern das kompensiert wird bzw. wie gut der Cache da funktioniert kann aktuell wohl keiner sagen - der "zusätzliche Vorteil" wird aber meiner Meinung nach erst die kommende Generation einschlagen.
AMD wie auch NV sind mit RDNA3 bzw. "Hopper" laut Gerüchteküche dabei, erstmals MCM-Designs zu bringen, also mehrere GPUs auf einem Package. Damit das ohne die aus SLI-/Crossfire-Zeiten bekannten Nachteile funktioniert brauchts zwischen den GPUs einen vergleichsweise riesigen und extrem schnellen Cache/Datenverbindung. Ich tippe stark darauf, dass der jetzt eingesetzte IF-Cache der Vorläufer davon ist. Aktuell zur Reduktion der nötigen Bandbreite zum vRAM benutzt könnte er bei RDNA3 das Bindeglied zwischen den "Chiplets" sein. NV wird etwas ganz ähnliches da nutzen (müssen), ich vermute eine abgewandelte Form des NVLink+Cache.

blautemple · 8. Oktober 2020

Bevier schrieb:
Und wo unterscheiden sich 320 Bit für 20 GB von 256 für 16? Ich kann schienbar Mahtematik, du nicht...

Was ist das denn für eine Rechnung :haha:

Für die Performance ist sowohl die Menge als auch die Geschwindigkeit relevant und die Geschwindigkeit wäre bei Nvidia in dem Fall deutlich höher

Oberst Klink · 8. Oktober 2020

Die Diskussion um die Speichermenge ist schon alt und gewisser Maßen haben beide Seiten recht. Ja, 10 GB können schon knapp werden, je nach Szenario und ja, man braucht nicht unbedingt 20 GB in 99% der Fälle. Viele Spiele machen einfach auch den Speicher voll, egal ob es 8 oder 16 GB sind, das bedeutet dann natürlich nicht, dass sie dann diese Menge auch benötigen.

AMD geht bei der RX 6900 genau den richtigen Weg mit 16 GB. Das ist eine spürbare Verbesserung gegenüber vorhergehenden Generationen und dürfte auch den Preis nicht so extrem in die Höhe treiben.
Die 10 GB der 3080 sind halt doch etwas wenig, zumal die Karte schon um die 800€ kostet im Handel. Und mit 20 GB dürfte der Straßenpreis der 3080 schnell an die 1000€ heranreichen. Ähnlich sieht es mit der 3070 aus, die wird mit 16 GB auch nicht billig.
Wie es bei AMD wird, muss man sehen, aber ich denke man bleibt deutlich unter nVidia-Preisen.

Ich wäre auch nicht überrascht, wenn nach dem Release der 20GB-Variante der RTx 3080, die 10 GB-Variante einfach vom Markt verschwindet.

SLNC · 8. Oktober 2020

Oberst Klink schrieb:
Die 10 GB der 3080 sind halt doch etwas wenig, zumal die Karte schon um die 800€ kostet im Handel.

Das ist so ziemlich der Grund, warum mich die 3080 Situation momentan so nervt. 10GB für 699 € könnte man wohl irgendwo noch verkraften, aber 150 - 200 € Aufpreis macht das ganze dann doch schon um einiges unattraktiver. Egal, wie schnell der Chip ist.

Klar, das sollte sich auf Dauer denke ich wieder einpendeln, aber noch ist keine Ende in Sicht.

Mitchpuken · 8. Oktober 2020

Freue mich schon auf die Vergleichtests der gleichen Grafikkarten mit unterschiedlicher Speichermenge. Ich finde es schon gut, dass es die Leistung mit wenig Speicher gibt. Persönlich habe ich meine 1080ti noch nicht im 5 stelligen Bereich gesehen, aber bei UHD wünsche ich mir so gut wie immer mehr Leistung.

-ElCritico- · 8. Oktober 2020

Incredible Alk schrieb:
Inwiefern das kompensiert wird bzw. wie gut der Cache da funktioniert kann aktuell wohl keiner sagen - der "zusätzliche Vorteil" wird aber meiner Meinung nach erst die kommende Generation einschlagen.
AMD wie auch NV sind mit RDNA3 bzw. "Hopper" laut Gerüchteküche dabei, erstmals MCM-Designs zu bringen, also mehrere GPUs auf einem Package. Damit das ohne die aus SLI-/Crossfire-Zeiten bekannten Nachteile funktioniert brauchts zwischen den GPUs einen vergleichsweise riesigen und extrem schnellen Cache/Datenverbindung. Ich tippe stark darauf, dass der jetzt eingesetzte IF-Cache der Vorläufer davon ist. Aktuell zur Reduktion der nötigen Bandbreite zum vRAM benutzt könnte er bei RDNA3 das Bindeglied zwischen den "Chiplets" sein. NV wird etwas ganz ähnliches da nutzen (müssen), ich vermute eine abgewandelte Form des NVLink+Cache.

Den Ansatz, den ich bis jetzt gesehen habe, hat keine SLI-/Crossfire-Nachteile. Den Cache braucht man aber dort eher als Buffer. So wie ich es verstanden habe:
1. Der Treiber und das Betriebssystem betrachten die Karte als eine einzelne Karte von Außen.
2. Der GPU-Inputbereich wird von N-GPU-Chips geteilt, die gleich groß sind. Bei zwei Chips wären es 2, d.h. eine GPU bearbeitet die eine Hälfte des Bildes, die andere die andere Hälfte (bei SLI/Crossfire hat jede GPU ein ganzes Frame berechnet und mussten in ihrem VRAM den Inhalt doppelt vorliegen haben).
3. Die GPUs arbeiten vollkommen unabhängig voneinander bis auf ein Reset, falls eine der anderen zu sehr voreilt (Synchronisation).
4. Sie schreiben ihr Output in ein Cache (Framebuffer). Sobald das Bild komplett ist, wird das Bild ausgegeben und das Cache-Frame gecleart.
Die einzige Verzögerungen, die entstehen können sind: Die Wartezeit, bis das Bild komplett ist, zwischenzeitlicher Reset von beiden GPUs, damit sie mehr oder weniger synchron laufen. Im Großen und Ganzen müssen die GPUs nicht ausgiebig miteinander kommunizieren, sie müssen es nur mit dem Cache (Outputregister) tun. Der VRAM-Verbrauch bleibt unverändert. Ich nehme an, dass das Cache-System mindestens 3 Frames im Voraus buffern wird.
NVLink etc. werden erst mit den Profianwendungen SEHR komplex (Machinelearning).

Incredible Alk · 8. Oktober 2020

1.) Ja.

2.) Wie da was geteilt wird kommt drauf an was der Entwickler für am sinnvollsten hält - prinzipiell kann er AFR, SFR oder TFR wählen (was prinzipiell SLI auch schon alles konnte).
AFR (jede GPU berechnet nacheinander ganze Frames) wurde meist genutzt weils am performantesten ist, hatte aber Nachteile wie Mikroruckler und doppelter vRAM-Verbrauch. SFR (jede GPU berechnet ein halbes Bild des gleichen Frames) ist weniger performant, hat weniger Mikroruckler aber noch immer das vRAM-problem. Qualitätstechnisch der Königsweg ist TFR: GPUs teilen sich Frames tilebasiert auf - GPUs arbeiten zusammen am gleichen Frame in unterschiedlichen Bildbereichen optimiert aus dem gleichen vRAM. Keine Mikroruckler, kaum Overhead im Speicher aber sehr stark abhängig davon wie gut es umgesetzt wird und nur wenig Mehrleistung (zu SLI-Zeiten waren das übern Daumen wenig optimierte +30% durch eine 2. Karte).
Ich gehe davon aus, dass man hier eine abgewandelte TFR Methode wählen wird weil doppelter nötiger vRAM nicht zu verkaufen ist und Mikroruckler noch weniger. Da müssen die Ingenieure halt SEHR gute Methoden/Optimierungen finden wie das gut laufen kann mit Tiles.

3.) Glaube ich eher nicht (eben wegen TFR)

4.) Das sollte generell so sein, wobei bei TFR beide GPUs ähnlich schnell fertig sind - denn wenn eine GPU ihre Tiles fertig hat kann sie weitere von der anderen GPU übernehmen die noch am arbeiten ist. Ähnlich wie man es beim Cinebench etwa sieht - ein freier Kern/CPU bekommt einfach das nächste Arbeitspaket/Tile.

PCGH_Torsten · 8. Oktober 2020

PHuV schrieb:
Hier gabs doch von Micron eine Meldung, das diese erst ab 2021 in entsprechenden Stückzahlen verfügbar werden?

Für 2021 wurden nach bisherigen Informationen auch die 16- und 20-GiB-Versionen erwartet. ;-)

Das es jetzt Gerüchte zu einem Release noch 2020 gibt, könnte entweder eine Änderung gegenüber den alten Meldungen sein oder aber "Release" und "Verfügbarkeit" sind für unterschiedliche Zeiträume geplant. In kleinen Mengen gibt es die Chips ja jetzt schon, wie 48-GiB-Quadros beweisen.

Incredible Alk schrieb:
Stimmt. Das war aber das Ergebnis eines viele Jahre andauernden Kampfes zwischen NV, AMD (damals ATi), davor noch 3dfx usw. - sowohl in Preis als auch Performance. NOCH weiter vorher in der "Frühzeit" des PCs ware Hardware ja noch viel teurer als heute, der erbitterte Kampf der hersteller um Marktanteile danach führte aber eben dazu dass fette Chips im 500€-Bereich verkauft wurden mit kaum Gewinn.

Ich weiß nicht, welche Zeiträume du mit "früher" meinst, aber die Voodoo Graphics hatte ihren Durchbruch meiner Erinnerung nach, als sie unter umgerechnet 250 Euro fiel. Die Voodoo 2 hat die meiste Zeit über nicht nenneswert mehr als 325 Euro gekostet, Voodoo Banshee und Riva TNT als erste tatsächlich konkurierende, ernstzunehmende 2D-/3D-Lösungen starteten für unter 200 Euro und fielen bis unter 150 Euro, bevor die Nachfolger erschienen. Zugegeben wurden die 400 Euro dann relativ schnell erreicht, als man Anfing mehrere Leistungstufen innerhalb einer Generation zu veröffentlichen, aber mit Ausnahme der weit herausragenden, seinerzeit viel gescholtenen Geforce 2 Ultra hat vor den 10er Jahren eigentlich keine Consumer-GPU die 500-Euro-Schallmauer komplett gerissen. (Erinnerung kurz in ein paar Archivausgaben überprüft: Die meiste Zeit über wurden PCGH-Bestenlisten von 4xxer-Karten angeführt, oft gab es die gleiche GPU aber auf einem 39x-Modell. Erst die zweite Fermi-Generation zusammen mit den HD7000ern hat dann die 600-Euro-Klasse etabliert, seitdem geht es im Windschatten der ehemals-1.000-Titans eigentlich jede Generation einen 100er nach oben.

4thVariety · 8. Oktober 2020

AMD 256Bit Speicherbandbreite, 16GB, macht 16Bit pro Gigabyte.

Nvidia 320Bit für 10 oder 20GB, macht 32, oder 16Bit pro Gigabyte.

Oops, sagt mal könnte es sein, dass man daran erkennt dass die 10GB vielleicht das Pippi Sparstrumpf Modell ist?
Wollen wir nicht schnell AMD anrufen, damit die wieder 8GB runterlöten weil die Karte sonst nicht auf Nvidia Niveau ist?

PCGH_Torsten · 8. Oktober 2020

Incredible Alk schrieb:
1.) Ja.

2.) Wie da was geteilt wird kommt drauf an was der Entwickler für am sinnvollsten hält - prinzipiell kann er AFR, SFR oder TFR wählen (was prinzipiell SLI auch schon alles konnte).
AFR (jede GPU berechnet nacheinander ganze Frames) wurde meist genutzt weils am performantesten ist, hatte aber Nachteile wie Mikroruckler und doppelter vRAM-Verbrauch. SFR (jede GPU berechnet ein halbes Bild des gleichen Frames) ist weniger performant, hat weniger Mikroruckler aber noch immer das vRAM-problem. Qualitätstechnisch der Königsweg ist TFR: GPUs teilen sich Frames tilebasiert auf - GPUs arbeiten zusammen am gleichen Frame in unterschiedlichen Bildbereichen optimiert aus dem gleichen vRAM. Keine Mikroruckler, kaum Overhead im Speicher aber sehr stark abhängig davon wie gut es umgesetzt wird und nur wenig Mehrleistung (zu SLI-Zeiten waren das übern Daumen wenig optimierte +30% durch eine 2. Karte).
Ich gehe davon aus, dass man hier eine abgewandelte TFR Methode wählen wird weil doppelter nötiger vRAM nicht zu verkaufen ist und Mikroruckler noch weniger. Da müssen die Ingenieure halt SEHR gute Methoden/Optimierungen finden wie das gut laufen kann mit Tiles.

3.) Glaube ich eher nicht (eben wegen TFR)

4.) Das sollte generell so sein, wobei bei TFR beide GPUs ähnlich schnell fertig sind - denn wenn eine GPU ihre Tiles fertig hat kann sie weitere von der anderen GPU übernehmen die noch am arbeiten ist. Ähnlich wie man es beim Cinebench etwa sieht - ein freier Kern/CPU bekommt einfach das nächste Arbeitspaket/Tile.

Eine gekachelte Aufteilung hat bei VRAM-Verbrauch und Koordination keinerlei Vorteile gegenüber simpleren SFR. Den Ansatz gibt es nur, weil er die Rechenlast zwischen beiden GPUs gleichmäßiger verteilt (bei einer 50:50-Teilung ist es sehr wahrscheinlich, dass in einer Bildhälfte mehr zu tun ist und asymmetrisches SFR hat nie Fuß gefasst). Aber alle Ansätze außer AFR haben das gleiche Problem: Entweder beide GPUs können mit (näherungsweise) voller VRAM-Geschwindigkeit untereinander Daten austauschen oder beide GPUs müssen zumindest Geometrie und Beleuchtung des eigentlich dem zweiten Chip zugeteilten Bereiches mitberechnen, weil sie in den eigenen Bildteil ausstrahlen könnten. Sowohl die eine wie auch die andere Umsetzungsvariante hat bislang soviel Ressourcen gekostet (entweder verschwendete Rechenzeit durch parallele Doppelberechnungen oder aber, nie umgesetzt, Silizium- und R&D-Verbrauch für ein extrem schnelles Chip-Chip-Interface), dass bei gleichmäßigen Frametimes selten mehr als 20-30 Prozent Fps durch den doppelten Hardware-Einsatz möglich waren (mal mehr, mal weniger, je nach Umfang der bildschirmfüllenden Effekte und Qualität der Implementierung.). Für den 200 Prozent des Preises einer Karte kann aber nahezu immer auch einen 30 Prozent größeren/stärkeren monolithischen Chip bauen, der dann wenigstens nicht 200 Prozent Platz- und 200 Prozent Energieverbrauch hat, im Gegensatz zu einem SLI-Gespann.

Incredible Alk · 8. Oktober 2020

Hmmm ok, glaubst du denn, dass man in solchen Aufbauten tatsächlich "klassisches" SFR nutzen würde?
Irgendwie erscheint mir das (oberflächlich) als ZU simpel. Es muss doch irgendwelche (nicht nur rein wirtschaftliche) Gründe geben, warum kein Hersteller bisher MCM genutzt hat für starke Grafikkarten? Und es muss ja einen Grund geben dass sie jetzt gerüchteweise alle damit anfangen (bzw. damit angefangen haben) - das machste ja nur dann wenn der konventionelle Weg keine ausreichenden Fortschritte mehr erlaubt?

Berserkervmax · 8. Oktober 2020

und genau das kauf ich mir die leiseste RTX3080 mit 20GB
Wegen Gsync kommt AMD nicht Frage

theGucky · 8. Oktober 2020

PCGH_Torsten schrieb:
Für 2021 wurden nach bisherigen Informationen auch die 16- und 20-GiB-Versionen erwartet.
Das es jetzt Gerüchte zu einem Release noch 2020 gibt, könnte entweder eine Änderung gegenüber den alten Meldungen sein oder aber "Release" und "Verfügbarkeit" sind für unterschiedliche Zeiträume geplant. In kleinen Mengen gibt es die Chips ja jetzt schon, wie 48-GiB-Quadros beweisen.

Moment Torsten. Soweit ich weiß sind die Quadros nicht mit GDDR6X sondern nur mit GDDR6 geplant.

seahawk · 8. Oktober 2020

Threshold schrieb:
Wenn AMD nichts gerissen bekommt, gibt es keinen Grund für Nvidia den Vram zu erhöhen.

Da der preis stärker steigen wird als die Kosten, gibt es da einen sehr guten Grund.

gerX7a · 8. Oktober 2020

Incredible Alk schrieb:
Inwiefern das kompensiert wird bzw. wie gut der Cache da funktioniert [...]

Nicht so ganz, MCM-spezifisch wird das erst an einer bestimmten Stelle, siehe Grafik.
In A) hätte man ein einfaches Standarddesign, lediglich aufgeteilt auf MCM. Die Compute/Render-Tiles hängen an einer Crossbar an der der Speicher hängt. Da das Ganze zur Leistungssteigerung dient werden die Tiles relativ schnell sein, d. h. hier summiert ein hoher Bedarf an Gesamtspeicherbandbreite auf, der Speicher muss also sehr schnell sein und die Crossbar müsste in diesem Beispiel, wenn sie jederzeit jedes Tile vollumfänglich versorgen können wollte, eine Gesamtbandbreite von 2 TiB/s aufweisen. (Tatsächlich notwendig sein wird das faktisch nicht, da die Inter-Tile-Kommunikation nur mäßig hoch sein wird bei einer GPU und da der Speicher in diesem Beispiel eh nicht mehr als 960 GiB/s liefern kann, können grundsätzlich nicht alle Tiles mit maximaler Bandbreite versorgt werden.)
In B) setzt man einen Cache auf die Crossbar, was den Speicherengpass zu lindern hilft und in diesem Beispiel sogar so weit getreiben wurde, dass angenommen wurde, dass der Cache so effizient ist, dass man die Speicherbanbreite effektiv gar noch vermindern kann ggü. der Ausgangssituation. In diesem Fall macht es durchaus Sinn, dass die Crossbar die 2 TiB/s auch tatsächlich verarbeiten kann, denn für etliche Anfragen wird diese nicht auf einen Speicherzugriff angewiesen sein, sondern kann die Daten direkt dem Cache entnehmen. Die Wahrscheinlichkeit, dass die Tiles sich näher am rande iherer 4 x 512 GiB/s Transferrate bewegen, steigt.
Die Funktion des Caches hier ist aufgrund der Position jedoch genau die gleiche wie im bevorstehenden RDNA2-Design oder beim L3 einer jeden CPU, d. h. die Funktion ist nicht MCM-spezifisch.
In C) spendiert man jedem Tile zudem einen eigenen Cache, der hilft die Bandbreitenlast auf die Crossbar zu mindern. Theoretisch könnte man möglicherweise gar die Bandbreitenauslegung der Crossbar nun etwas verringern, wenn die Einsparungsmöglichkeiten relevant sind. Erst dass wäre eine MCM-spezifische Nutzung des Cache, denn hier arbeiten die vier kleinen Caches unmittelbar in einer MCM-spezifischen Funktion. (In einer realen Implementation wären die kleinen Caches wohl noch unnötig, denn 2 TiB/s in der Crossbar sind noch kein so bemerkenswert hoher Wert. Diese Caches würden erst wieder erforderlich werden, wenn die Pro-Tile-Bandbreite über den Interconnect zu hoch wird, denn auch die kann man nicht beliebig steigern ohne dass es Probleme mit dem Strom und der Signalintegrität gibt oder wenn die Anzahl der Tiles zunimmt.)
In D) stellt man auf HBM2 um und die Speicherbandbreite steigt beträchtlich an mit nur vier Stacks und moderaten 3,2 Gbps-Bausteinen. Hier könnte man den großen Cache in der Crossbar gar entfallen lassen und diese vom Aufbau her deutlich vereinfachen.

Der Vollständigkeit halber/abschließende Bemerkung: Es ist auch ein Design ohne separate Crossbar denkbar, wie es AMD bei Zen aus Kostengründen anfänglich implementierte. Jedes Tile hätte seinen eigenen, lokalen, schnellen Speicher und die Tiles wären direkt untereinander verbunden. Bei nur zwei bis vier Tiles wäre das noch relativ gut machbar und bspw. PCIe-I/O würde man über eine bestimmte Tile routen, die man als Gateway verdrahtet. Kosten/Nutzen sind hier jedoch nur bei der maximalen Verbindung weniger Tiles auf einem Produkt gegeben. Soll die Skalierung dagegen deutlich höher reichen (Xe-HPC "Ponte Vechhio" bspw. mit 16 Compute-Tiles), dann muss diese Funktionalität aus kosten/effizienzgründen sinnvollerweise in einen eigenen Chip ausgelagert werden.

Bevier · 8. Oktober 2020

gerX7a schrieb:
Diese 80er ist das HighEnd-Topmodell für den Mainstream. Darüber hinaus gibt es nur noch die 3090 für Enthusiasts deutlich jenseits der 1000 €, was sich praktisch so gut wie kaum ein Gamer gönnt (oder leisten kann/will). Gemäß PCGH in 4K liefert die gemittelt in MaxedOut-Settings +105 % Fps ggü. einer 5700XT, +64 % ggü. einer 2080 Super und immer noch +35 % ggü. einer 2080 Ti, die man billigstenfalls für 1000 € bekam, d. h. +35 % reales Performance-Plus und -30 % weniger beim Preis (wenn man geduldig ist; bereits mit dem Erscheinen der AMD-Karten sollten sich die Händler wieder etwas beruhigen )

BigNavi, 256 Bit, 448 GiB/s mit 14 Gbps bis zu 512 GiB/s mit 16 Gbps. (18 Gbps werden unwahrscheinlich, da die Bausteine bisher laut Igor kaum verfügbar waren/sind) Wenn der Cache gar gut funktionert, wird BigNavi gar nur die gleiche Speicherbandbreite wie eine einfache RX 5700 oder RTX 2060 Super haben.

Ampere, 320 Bit, 760 GiB/s (egal ob mit 10 oder 20 GiB), also +48 % bis +70 % höhere Speicherbandbreite

Das mit dem "Schein" ist so eine Sache. Darüber hinaus kommt noch hinzu, dass AMD mit 80 CUs den deutlich größeren Chip mit mehr Ausführungseinheiten hat, der dementsprechend auch höhere Anforderungen stellen sollte. Endsprechend gut muss auch der InfinityCache sein, denn sonst würden die SPs "verhungern". Man könnte jetzt natürlich dagegen argumentieren, dass nVidia ja nun vergrößerte CUDA Cores verwendet, aber dann sollte man sich nun mal auch festlegen, ob man die nun als echte 8704 Cores zählen will oder die nur als Fake-Cores bezeichnet. Grundsätzlich aber auch irrelevant, insbesondere, wenn man unterstellt/hofft, dass das größte Modell etwas schneller als die 3080 sein soll/wird.
Es wird interessant zu beobachten sein, ob und wie der Cache das schmalbandige SI kompensiert und ob der möglicherweise darüber hinaus noch irgend einen zusätzlichen Vorteil bietet, ggf. beim Raytracing?

Du bist also echt nicht fähig zu rechnen? Dann rechne ich es dir einmal vor, damit du siehst, dass das Speicherinterface bei der 20 GB Ampere genauso breit ist, wie bei RDNA 2 und etwas anders hatte ich auch nicht behauptet aber du behauptest irgendwas anders. Du hast in beiden Fällen 32 Bit SI für 2 GB. Wo soll der Unterschied also sein? Dass nVidia wieder einmal einen Exklusivvertrag mit Micron hat? Wow aber das ändert trotzdem nichts daran, dass meine Aussage im Gegensatz zu deiner vollkommen korrekt ist...

gerX7a · 8. Oktober 2020

Sorry, aber wenn du schon die Grundlagen nicht verstehst und nicht weißt was "Speicherbandbreite" und "Speicherinterface" ist ... Noch mal langsam und in allen beiden zulässigen Variationen zu BigNavi (soweit vermutet) und der RTX 3080:

o 256 Bit SI vs. 320 Bit SI ... auf dem Zahlenstrahl ist 256 deutlich unterhalb der 320 angeordnet, ergo kleiner
o 512 GiB/s (best case) vs. 760 GiB/s ... auch hier deutet schon die "5" bei der Hunderterstelle im Vergleich zur "7" unmissverständlich an, dass ersterer Wert kleiner ist und nicht etwa gleich groß

Deine ursprüngliche Aussage:

Bevier schrieb:
Jetzt brüllen alle nach den Karten mit mehr Speicher aber bei AMD ist ein gleich großes Speicherinterface zu schmal? Ja, Logik und Hardware-Enthusiasten passen irgendwie einfache nicht zusammen...

Da ist nichts gleich groß, sondern ganz offensichtlich ist das Interface kleiner, denn nach aktuellem Stand scheint AMD hier nur 8x 32 Datenleitungen zur Verfügung zu stellen. während nVidia hier 10x 32 Datenleitungen zur Verfügung stellt und auch noch deutlich schnelleren Speicher nutzt (wobei auf dem Chip gar 12x sind, die bei der 3090 genutzt werden).
Ich gehe mal davon aus, dass du noch 1+1 zusammenrechnen kannst, dass heißt dann aber, dass wir hier deine unsinnige Beharrlichkeit deinem extremen Bias zuschreiben müssen oder schlicht der Tatsache, dass du nicht eingestehen kannst, anfänglich Unsinn geschrieben zu haben.
Ansonsten betrachte ich das Thema als abgeschlossen, da sich an der Faktenlage ja auch nichts ändert bzw. ändern wird ... es sei denn dir gelingt es einen neuen Satz mathematischer Axiome aufzustellen, die die Zahlenreihenfolge umdefinieren.

Dein ursprünglicher zweiter Satz bekommt da übrigens schon eine ganz eigene Bedeutung, wenn man sich deinen Verlauf hier in diesem Thread ansieht. ;-)

RTX 3080 mit 20 GiB und 3070 mit 16 GiB: Release noch dieses Jahr?

Volt-Modder(in)

Software-Overclocker(in)

BIOS-Overclocker(in)

Moderator

Kokü-Junkie (m/w)

Lötkolbengott/-göttin

PC-Selbstbauer(in)

Software-Overclocker(in)

-ElCritico-

Guest

Moderator

Community Manager

BIOS-Overclocker(in)

Community Manager

Moderator

Software-Overclocker(in)

BIOS-Overclocker(in)

Lötkolbengott/-göttin

BIOS-Overclocker(in)

Volt-Modder(in)

BIOS-Overclocker(in)

Ähnliche Themen