Das die beiden chips es gibt ist klar
Ds die beiden deutlich mehr leistung haben werden auch
Das diese aber für den consumermakt kommen werden nein
FP32 wovon alle ausgehen ist der wert der eine leistung ebschreibt einer gpu seit 2006
Als mit dx10 die starre pixel und evrtex shader vereint wurden.Und durch primitive texel und rop ersetzt wurden
ROp hgab es schon vorher und stellen das rastergitter her je mehr desto genauer kann das netz sein. Die reine pixelberechnung ist jetzt flexibel und wird in den united shader verarbeitet und vom daher kommt der begriff floating point
Vorher wurde das per mb bis gb/s an pixel und texel ausgegeben.
Nviida Spezial aufbau des ampere chip und kommende gpu
es sind afaik 50% fp32 und 50% fp16 Einheiten verbaut
Die 50% fp16 können allerdings zu ganzzahl also 50% dessen auf fp32 laufen.
bedeutet in einen sm derzeit 128 sind 96fp32 Ausführungen möglich.
das macht beim ad102 wenn nviia die Aufteilung nicht ändert
18432*2 Operationen pro Takt/ 2 (fp32+fp16)*1,5 reale fp32*2,5ghz=69tf
amd gegensatz dazu rdna3 n31 15360*2*2,5=76,8tf
beide aber hängen am SI beim amd sind das theoretische 3,51gb/s
bei nvidias ohne inf cache kommen wir auf 1,08gb/s
nvidia hat ein großes SI Problem das die gpu die 69tf nicht auf die Straße bekommt weswegen ich davon ausgehe das nvidia entweder einen eigene cache auf der gpu setzen wird oder was wahrscheinlicher ist ein zwischen speicher als hbm drauf ist.
Quasi dassselbe prinzuip wie bei amd aber mit dem unterschied das man das per L4 cache löst das umgeht nvidia Lizenz Schwierigkeiten mit amd.
Folglich wird der ad102 monströs bis zum max der Produzierbaren 5nm Belichtung (800mm²)
Was einen comsumer launch komplett ausschließt
Für nvidia wäre es sogar billiger ganz auf gddr6x zu verzichten und auf hbm zu wechseln.
Was aber kommen wird ist ad106 mit gddr6x 80sm
Und refrresh ampere auf 6nm ga104 /48sm und ga106/28sm
ga107/24sm wird auf samsung bleiben.
Ampere sollte ursprünglich auf tsmc 7nm kommen dafür gibt es tape outs wurde aber nix draus weil nvidia sich beim poker verschätzt hat (2018).
Man hatte quasi nicht genug Kapazitäten was jeden chip je weiter in entwicklung gekommen ist auf samsung umgestellt werden musste.
Folglich ist ampere deutlich stromhungriger geworden als geplant und man musste die chips ans limit oc
Der 6nm refresh ist quasi sicher irgendwann q3 2023
Die high end chips sind aber
n32 mit 120cu und 2,5ghz ~400w 38,4tf 3,51tb/s
und ad104 mit 120sm und 2,5ghz 550w 57,6tf 1,08tb/s
wobei amd hier klar gewinnt.
nvidia muss was am cache tun um den abstand zu verringern einzig die Hoffnung das amd mit dem internen cache latenzen hat könnte beide gpu gleichschnell werden lassen. Nehme ich nur gddr6x vs gddr6 an wird nvidia am SI verhungern.
Nvidia hat keine andere Wahl als ad102 und ad104 mit hbm2e auszuliefern mit 8072bit an chiptakt.
was dann etwa 2,5tb/s ergibt
Monolithisch kann nvidia nicht mit nur 384bit gegen inf cache und realen 936gb/s =3,51tf/s ankämpfen einzig amd mcm Ansatz könnte da Probleme machen.
ich wette das nvidia darauf setzen wird das unter windows zwar die amd gpu als Monolithen gesehen werden kann aber real nur zur hälfte arbeiten kann.
Mit glück kommt man wie bei gcn auf 60-80% fp32 load.
was wieder treiber magie voraussetzt
Und bei den tf menge kann ich nur sagen das diese sowieso nur mit dxr und pathtracing genutzt werden kann. Das cpu limit setzt schon jetzt ab 1080p ein egal ob amd oder nvidia und die cpu werden maximal 50% im singlecore schneller (zen4 2023 intel4 fertigung nachfolger in 2024)
Aktuell ist man bei etwa 270 cb15 danach wird es etwa 405 cb15 sein
zen 4 0 ryzen 7000 2023
intel4 = core i14th gen 2024
ab dann sind die 80cu und 84sm auslastbar etwa 26tf auf 1080p
Nächster schritt am desktop zen 3d +15% ipc durch mehr cache am4
zen 4 +50%( ja die haben auch 3dcache) Architektur Verbesserung +35%
Wichtiger sind die strom Ersparnisse durch 5nm und 6nm
5nm reduzierung -50% vs samsung 8nm node 80sm 350w vs 80sm =175w
7nm vs 6nm -20% und -30% vs 8nm samsung
amd 40cu 140w und nvidia 48sm 140w
amd wird allerdings auch kein n34 bringen sondern so
n31 servermarkt
n32 consumer high end
n33 80cu
n22 refresh 6nm 40sm
n23 32cu
n24 cancelt ursprünglich 18cu
Für uns konsumenten gilt rtx4060 +80% Leistung (ga104)
rx7600xt +90% Leistung (n22 refresh)
nvidia lovelace und amd rdna3 wird high end vorbehalten sein mit entsprechenden verbrauch von 350w
Die ganzen Horror Vorstellung das man demnächst min 1200w Netzteile braucht ist völlig an den haaren herbeigezogen
Zum Schluss spiele werden für die Konsolen designet folglich sind 10-14tf das maximum was will man dann mit 40-60tf?
Puh, extrem viel Spekulatius und regelrechtes Kaffeesatzlesen; nachfolgend nur mal die auffälligsten Punkte:
o RDNA3 und Lovelace sind explizit für den Cosnumer-Markt gedacht und das sowohl bei AMD wie nVidia über alle Chips hinweg. Das einzige, was denkbar wäre, ist, dass es gar ein 4-fach-MCM-Design von RDNA3 geben wird und nur dieses für deren Radeon Pro-Produkte kommt, übermäßig wahrscheinlich ist das jedoch nicht, da AMDs erster Wurf voraussichtlich lediglich imstande sein wird nur zwei Chips zu verbinden, insbesondere, wenn die Energieaufnahme der bisherigen Gerüchte bereits grob in die richtige Richtung verweist, also 400 - 500 W für bereits ein 2-Chip-MCM.
Bei nVidia wird ebenso auch der größte Chip (ggf. ein GL102 ?) als Top-Consumer-Produkt kommen, was für nVidia unverzichtbar ist, weil das erst überhaupt ihre hohen Margen bei der Fertigung derart großer Chips ermöglicht, da es sich hier am Ende fertigungskostentechnisch um eine Mischkalkulation zwischen den vertriebenen ProfViz- und Consumer-Karten handelt. Im Massenmarkt wird man voraussichtlich bei der bewährten Formel bleiben und eine Hand voll/mehr SMs deaktivieren.
o Die Angabe zu FP16-Einheiten zu Turing ist gesichert falsch, anzunehmenderweise auch zu Ampere als evolutionäre Weiterentwicklung (
wobei nVidia die architektonsichen Details nicht soweit runtergebrochen hat und die Details zu Turing erst sehr spät durchsickerten).
nVidia verwendet in den Shadern in Turing einen FP32- und einen INT32-Funktionsblock, die nun parallel arbeiten können und in Ampere nun einen FP32- und einen kombinierten INT32/FP32-Funktionsblock. Dedizierte FP16-Einheiten gibt es hier nicht (
voraussichtlich ebenso wenig in Ampere).
In Turing wurden bei den großen Modellen FP16-Operationen über die Tensor Cores geroutet, was nVidia effizientere Designmöglichkeiten bot. Entsprechend mussten bei den kleineren Turing-Modellen, so bspw. dem TU1116, aufgrund des Entfalls der Tensor Cores dedizierte FP16-Einheiten hinzugefügt werden, was offensichtlich größentechnisch dennoch einen Vorteil bot.
www.anandtech.com
o Deine Rechnung zu den TFlops ist falsch. Geht man von den bisher kolportierten Werten aus, die auch in diesem Artikel erneut angeführt werden, dann wird ein monolithisches Lovelace-Topmodell mit 18432 "Marketing-Shadern" (oder der Vollausbau? also eine LG102 als RTX 4090 hat ggf. etwas weniger?) bei 2,3 - 2,5 GHz Boost-Takt 84,8 - 92,2 TFlops Peak-FP32-Performance aufweisen und dadurch bei FP32 erneut deutlich leistungsfähiger sein.
Bei AMD dagegen hat sich am FP32-Durchsatz seit bspw. Vega10 nichts verändert und das skaliert hier linear mit der CU-Zahl und Boost-Taktrate. Entsprechend resultiert dies bei RDNA2 als Navi 21 mit 2,25 GHz zu 23,0 TFlops und würde für ein RDNA3-Topmodell mit zwei Dies mit zusammen 15360 ALUs bei 2,4 - 2,5 GHz zu 73,7 - 76,8 Peak-TFlops führen. ***)
*) Die Shader-Kerne, CUDA-Cores, ALUs beherrschen für die Angabe der Peak-Flops eine MAD-Operation die effektiv zwei Flops pro Cycle prozessiert und von den Herstellern als Basis für die Peak-TFlops-Angabe genutzt wird. Das Ur-Pascal nutzte noch 128 ALUs pro SM und kam bei bspw. der GP102 als 1080 Ti mit 1582 MHz Boost-Takt zu 11,34 TFlops theoretischem FP32-Peak-Durchsatz.
Turing steigerte die Gaming-Leistung durch eine dedizierte INT32-Einheit, der FP32-Durchsatz blieb unverändert und man kommt mit dem TU102 als 2080 Ti bei 1635 MHz Boost-Takt zu 14,23 TFlops.
In Ampere tauschte man dann die dedizierte INT32-Einheit gegen eine kombinierte INT32/FP32-Einheit, was zu der beobachteten "
FP32-Verdoppelung" führt und ein GA102 als RTX 3090 mit 1695 MHz Boost-Takt erreicht nun 35,58 TFlops theoretische Peak-Performance.
In Games skaliert das nachvollziehbarerweise nicht linear, in einigen Compute-Workloads kommt man dagegen tatsächlich nahe dieses theoretischen Peak-Wertes.
**) Wie man die CUDA-Cors seit Ampere nun zählt ist eine Frage der Sichtweise. Aus technischer Sicht würde ich verbreiterte CUDA-Cores mit nun 1xFP32 und 1xFP32/INT32 skizzieren, nVidia's Marketing spricht nachvollziehbarerweise lieber von einer doppelt so hohen CUDA-Kernzahl.
***) Bei AMD ist der Wert jedoch noch ein wenig mehr theoretischer Natur aufgrund deren seit einigen Jahren weiterer Unterteilung in Base-, Game- und Boost-Takt.
o "
beide [nVidia & AMD] aber hängen am SI"
Die Aussage ist in dieser Form mindestens obsolet, da jedwedes datenverarbeitende Design von der Bandbreite abhängt, mit der diesem Daten zugeführt werden können.
Darüber hinaus ist die Bandbreitenaussage zu AMD vollkommen falsch. Bleibt es hier aus Kosten- und Marktverfügbarkeitsgründen weiterhin bei GDDR6 wäre das bestmöglich zu erwartende Szenario für RDNA3 256 Bit pro Chip mit GDDR6 mit 18 Gbps/16 Gb-BGAs. Das führt zu einer kumulierten Gesamtbandbreite von rd. 1,13 TiB/s.
Bei Lovelace dagegen weiß man noch nicht was nVidia an GDDR6-Bandbreite für notwendig erachtet. Da das OC-GDDR6 stromhungriger ist, wäre es denkbar, dass die weiterhin bei 384 Bit bleiben und stattdessen die Caches vergrößern (entweder direkt den L2$; der GA100 verfügte bereits über einen übergroßen L2$) oder aber man fügt auch hier schlicht einen zusätzlichen L3$ in die Cache-Hierarchie ein.
Schlussendlich ist das aber auch nur von sekundärem Interesse, denn am Ende muss das SI der GPU in seiner konkret verwendeten Ausbaustufe gerecht werden, da andernfalls die GPU ausgebremst werden würde und das wiederum würde bedeuten, dass man sinnlos Geld verbrennen würde in Form von teuerem Silizium, das seine Leistung nicht entfalten kann und daher auch keine werbetechnische Wirkung besitzt, bei TSMC/Samsung aber natürlich dennoch bezahlt werden müsste.
Darüber hinaus erscheint es weiterhin nicht übermäßig wahrscheinlich, dass nVidia auf HBM2 wechselt. Das hätte man auch schon mit Ampere tun können, die Kosten sprachen jedoch offensichtlich eher zugunsten einer Kooperation mit Micron und man darf annehmen, dass die das min. noch eine weitere Generation fortsetzen werden.
Dennoch könnte nVidia Ende 2022 mit optimierteren BGAs aufwarten, denn die Speicherhersteller stellen ihre Produktion bereits in Teilen auf EUV um, was die Effizienz steigern könnte. Bereits deren alte Bausteine waren mit 21 Gbps spezifiziert, konnte aber aus diversen Gründen mit Ampere nicht sinnvoll über 20,0 Gbps betrieben werden. Wenn sie nun tatsächlich 21 Gbps von Micron erhalten sollten, würden sie 0,98 TiB/s erreichen und könnten mit einem vergrößerten Cache mit dem kleineren SI mit dem zu AMD skizzierten Maximal-Szenario mithalten (
und würden energetisch möglicherweise gar keine Nachteile hinnehmen müssen, da man mit weniger aber etwas stromhungrigeren DDR6-Controllern und weniger BGAs auskommen würde?).
o "
Ampere sollte ursprünglich auf tsmc 7nm kommen dafür gibt es tape outs wurde aber nix draus weil nvidia sich beim poker verschätzt hat (2018)."
Die Aussage ist nach wie vor vollkommen unbelegt und schon weniger Spekulatius als vielmehr Verschwörungstheorie. nVidia und Samsung haben bereits seit langem eine Partnerschaft und man weiß nach wie vor nicht genau die Gründe für eine Verlagerung der Consumer-Fertigung. Im einfachsten Falle ging es um eine höhere Marge, die man mithilfe von Samsung realisieren konnte und sieht man sich das Endergebnis an, hat es nVidia nun tatsächlich nicht nötig mehr (kosten)technischen Aufwand zu betreiben um RDNA2 in Schach zu halten. Konkret dürfte es gar noch deutlich besser als erwartet für sie laufen, da AMD derzeit gar GPU-Marktanteile verliert.
Obige Urban Legend wird nicht valider oder gar zum Fakt dadurch, dass man die im Forum gebetsmühlenartig widerholt. Einziger Fakt in diesem Kontext ist: Man kennt den (oder die) tatsächlichen Grund nicht!
Darüber hinaus: Ampere wird auch bei TSMC gefertigt. Der GA100 ist ebenso Ampere und man kann davon ausgehen, dass die IP-Block-Designs hier weitestgehend Node-agnostisch vollzogen wurde um nicht das Rad zwei Mal erfinden zu müssen. Die etwas andere Zusammensetzung für die unterschiedlichen Chips ist dagegen ein anderes Thema.
Für Lovelace kann man aber (zumindest für die Topmodelle) tatsächlich mit einer etwas höheren Wahrscheinlichkeit von einem TSMC-5nm-Prozess ausgehen, da nVidia den für ein monolithisches Design voraussichtlich benötigen wird, wenn man ein MCM-Design kontern will. Samsung's 5LPE ist bzgl. PPA deutlich weiter entfernt von TSMCs 5nm-Prozessen, sodass der voraussichtlich für ein derartiges Vorhaben schon rein aus (konkurrenz)technischer Sicht nicht ausreichen würde. Dennoch könnte man weiterhin spekulieren, dass kleinere Lovelace-Designs ggf. erneut von Samsung kommen werden zur Optimierung der Marge und Entspannung der Kapazitätsfrage?
o "
wobei amd hier klar gewinnt."
Lol, an dir ist ein echter Prophet verlorengegangen. Du pickst dir die gemäß deinem persönlichen Gusto bestmöglichen Werte und Wertkombinationen heraus und erklärst einen vorab zum Sieger, faktisch ohne auch nur die geringste Ahnung zu haben. Nicht schlecht.
Vielleicht sollte man es hier einfach dabei belassen, dass man dazu derzeit schlicht keine Aussage treffen kann, da man weder die Einzelwerte bestätigen kann noch ob die angenommenen Leistungswertkombinationen zutreffen?
Nur am Rande: Selbst wenn AMD Ende 2022 oder Anfang 2023 tatsächlich das Lovelace-Topmodell übertreffen wird, ändert das nichts an der Qualität deiner hier und heute getroffenen Aussage.
o "
Nehme ich nur gddr6x vs gddr6 an wird nvidia am SI verhungern."
Hier wird es jetzt so langsam grausig. Zuvor hast du wenigsten noch argumentativ nachvollziehbar was versucht darzulegen, wenn du dich stellenweise auch vergriffen hast, das hier jedoch geht schon eher in das berühmt-berüchtigten "Forumsgehabe".
Nach aktuellem Stand wird da niemand "verhungern", da nVidia bereits mit ihrem aktuellen SI bis zu 0,91 TiB/s erreicht und wie oben schon dargelegt, wird AMD da rein bezogen auf das GDDR6-SI nur in überschaubarem Rahmen darüber hinaus kommen. *)
Das "verhungern" könnte bestenfalls auf die aktuelle Konkurrenzsituation angewendet werden, da hier RDNA2 mit tatsächlich nur maximal 0,5 TiB/s aufwarten kann, aber selbst hier war das schon weitestgehend unbeholfene Polemik, da das Defizit weitestgehend über den vergrößerten L3$ von RDNA2 ausgeglichen wird.
*) Ergänzend dazu werden die potentiellen/spekulierten 32 GiB GDDR6 auch keine "freiweillige Dreingabe" von AMD sein, sondern ein technisch notwendiger Kompromiss, denn AMD hätte hier sicherlich nichts dagegen zu sparen und eine höhere Marge einzufahren, denn 32 GiB machen hier kaum noch Sinn auf Consumer-Hardware, würden sich bei einem derart angedachten Layout aber voraussichtlich nicht vermeiden lassen, da die nächstkleinere Option dann wieder nur 16 GiB wären.
Andernfalls müsste man doch ein etwas breiteres SI anbieten, was aber wieder mit der für den L3$ verwendeten Siliziumfläche kostentechnisch kollidiert.
o Für eine vermeintliche Sinnhaftigkeit die Shader-TFlops und Pathtracing zu kombinieren als einziger Pluspunkt bei nVidia ist unsinnig, da die Shader hier weniger relevant sind, da die RT Cores bzgl. Ray-Intersection und -Traversal deutlich leistungsfähiger und entsprechend bevorzugt diese zu verwenden sind.
Wäre dem nicht so, wäre die Implementation derart dedizierter HW-Einheiten völliger Unsinn und dann hätten sich offensichtlich auch AMD und Intel dieser völlig unsinnigen Implementationsweise angeschlossen ... eher weniger plausibel, oder?
o Zen4 und V-Cache im Consumer-Markt ist bisher reiner Spekulatius. Kann natürlich irgendwann kommen, ob es derartiges jedoch schon in 2022 zu sehen gibt, ist derzeit ungeklärt und eher den feuchten Träumen von ...

Hierzu gibt es schlicht keinerlei belastbare Aussagen und was auf dem Servermarkt geschieht hat erst mal wenig mit dem Consumer-Markt zu tun.
Der V-Cache ist für AMD in der Fertigung noch einmal deutlich teurer, was schlicht auf die Marge drückt, da man den Preis im Consumer-Segment nicht beliebig erhöhen kann. Sollte Zen4 mit seinen architektonischen und prozesstechnischen Verbesserungen einen ausreichend großen Zugewinn erzielen können, darf man davon ausgehen, dass V-Cache-Modelle im Consumer-Markt erst später nachgereicht werden.
o "
strom Ersparnisse ... 5nm reduzierung -50% vs samsung 8nm node 80sm 350w vs 80sm =175w
7nm vs 6nm -20% und -30% vs 8nm samsung"
Grausige Milchmädchenrechnung/abschätzung bzw. eher Raten. Es gibt keine wirklich belastbaren Aussagen zum Vergleiche eines Samsung 8LPP zu einem nicht näher definierten 5nm-Prozess von TSMC (
bei letzterem werden in 2022 gar derer drei zur Verfügung stehen, N5, N5P und N4). Die PPA-Zugewinne liefern die jeweiligen Hersteller jedoch ausschließlich relativ zu ihren eigenen, älteren Nodes.
Die Aussage zum 7nm-Vergleich ist ebenso fragwürdig bzw. konkret gar schlicht falsch. TSMC äußerte sich bzgl. des N6 vorrangig zur Flächenreduktion und vermied es Zahlen zu Power und Performance rauszugeben, voraussichtlich, weil man hier nicht den Fokus zu deutlich auf die kleinen Vorteile legen wollte. Typischerweise erklärte man immer nur eine bis zu 18 % höhere Logikdichte (i. V z. N7), nicht mehr. Der N6 ist vorrangig eine Korrektur des N7+-Entwicklungszweiges, der bzgl. der Design Rules inkompatibel zum bisherigen Portfolio war und daher nur selten genutzt wurde. Mit dem N6 bietet man nun einen sinnvollen Migrationspfad für kostensensitive Kunden ausgehend vom N7 oder älteren Nodes und auch hin zu 5 nm. Am ehesten kann man noch eine Ableitung vom N7+ versuchen, zu der TSMC zumindest bis zu 10 % bessere Power Efficiency angibt i. V. z. N7. Der N6 wird da nichts Übermäßiges drauflegen können und ob diese Möglichkeit überhaupt in vollem Umfang genutzt werden kann ist noch eine ganz andere Frage.
o "
Für uns konsumenten gilt rtx4060 +80% Leistung (ga104)
rx7600xt +90% Leistung (n22 refresh)"
Lol, das Orakel von Delphi wäre sicherlich hocherfreut über jemanden wie dich als Hohepriester gewesen. Dein einziges Problem wäre wohl gewesen, dass zu viele Falschaussagen zu der damaligen Zeit eher drastischen Folgen nach sich gezogen hätten.

Bezüglich einer derart intendierten Aussage könnte man bestenfalls eine Leistungsspanne abgeben und diese müsste gar noch einigermaßen großzügig dimensioniert sein, wenn man eine halbwegs akzeptable Trefferquote/Wahrscheinlichkeit gewährleisten wollte, sodass das Tätigen einer solchen Aussage überhaupt erst einen Sinn ergibt.
o "
Die ganzen Horror Vorstellung das man demnächst min 1200w Netzteile braucht ist völlig an den haaren herbeigezogen"
Zur Abwechslung dann mal tatsächlich ein Satz, denn man so stehen lassen kann.

Insbesondere wenn man berücksichtigt, dass man eine 3090 FE selbst im CPU/GPU-OC jetzt schon mit einem qualitativ guten Mittelklasse-NT der 750 W-Klasse stabil betreiben kann.