Geforce und Radeon: Gerüchte um Daten und Leistung der RTX 4090 und RX 7900XT

Was ich als halb-Ahnungsloser Hardware-Nerd noch nicht so ganz verstanden habe ... bedeutet, dass was AMD vor hat ein Revival der Multi-GPU Systeme als Crossfire?

Kann mich jemand der mehr weis aufklären bitte ? :-)
Nein mit Crossfire hat das nichts zu tun. D.h. es ist NICHT wie bei Crossfire, dass man zwei (oder mehr) GPUs hat die nach aussen hin auch als seperate GPUs auftreten und somit von Software und Spielen unterstützt und genutzt werden müssen.
Der MCM Ansatz geht eher in die Richtung, dass man verschiedene Teile einer GPU auf mehrere Dies/Chips aufteilt und diese dann über einen Interposer intern kommunizieren und zusammenarbeiten. Nach aussen hin zum Betriebssystem und Spielen erscheint das Konstrukt als eine einzige GPU. D.h. die Zusammenarbeit der Teile wird vollständig auf dem Package gesteuert.
Das ist wie hier schon jemand erwähnt hat ähnlich zum Ryzen Konzept. Gerade die tausende Shadereinheiten sind ja eh schon stark parallelisiert und sollten sich somit gut aufteilen lassen. Allerdings ist die Frage ob und wie viel Latenz das MCM Konzept einführt. Es könnte erst mal ineffizienter sein als ein Großer Die, aber die Möglichkeit mehere solcher Dies zusammen zu schalten könnte das vielleicht ausgleichen. Und es hat natürlich Vorteile bei der Herstellung. Mehrere kleinere Dies sind weniger Fehleranfällig bei der Produktion und vorallem wensentlich günstiger als ein Riesen Die.
 
Immer höher und weiter. Ist ja schön wenn Entwicklung da ist. Aber es muss ja lieferbar sein, und vorallen ist das nicht mehr Hardware für alle, sondern nur für die die es sich "leisten" können und auch möchten. :motz:
 
„Bis die neuen Karten Produktions-/Releasefertig sind, marschiert China in Taiwan ein. Dann haben wir die nächste Chipkrise… Verabschiedet euch schon mal von dem Gedanken eine der oben genannten Karten jemals zu besitzen.“*

*Meine Glaskugel
 
Bei dem Preisen der 3000er Reihe sollte ja schon gratis ein 32GB RAM update dabei sein, finde ich,
also wird wohl bei der 4000er Reihe ein ganzer Rechner fällig werden wenn diese dann so für 2500 -3500$ in den Handel gehen.
 
„Bis die neuen Karten Produktions-/Releasefertig sind, marschiert China in Taiwan ein. Dann haben wir die nächste Chipkrise… Verabschiedet euch schon mal von dem Gedanken eine der oben genannten Karten jemals zu besitzen.“*

*Meine Glaskugel
Hoffentlich nicht, ein Krieg braucht heute keiner. Die CCP sollte man sowieso mal zurechtweisen , leider sind unsere Politiker dazu zu feige.

Wie auch immer , mehr Leistung ist immer gut. Nur glaube ich das die neuen Karten dann so um die 500W verbrauchen werden XD , das geht total in die falsche Richtung.
 
China weist keiner zurück, benutzt man doch auch China bisher als billige, verlängerte Werkbank westlicher Firmen. Das wird sich natürlich rächen, weil das Know-How abgekupfert wird, und man, wenn der Westen zu blöde war, eigene Produktionskapazitäten zu erhalten, irgendwann nur noch die Preise seitens den chinesischen Herstellern diktiert bekommt. Aber die Konsum-Lemminge bezahlen ja eh jeden Preis.
 
Die 85 - 92 TFlops des AD102 sind doch eher theoretischer Natur und nur in ganz wenigen Spezialfällen von Relevanz.

Bei Gaming was für uns ja bekanntlich an erster Stelle steht, sieht es dann nicht mehr ganz so rosig aus.

Bei Ampere hat sich die Faustregel: Durch 2, mal ein Drittel bewehrt und kommt der Wahrheit so am nächsten, wenn es um Gaming geht und da sehen 57-61 TFlops relativ zu den 75 von Navi 31 nicht mehr sonderlich beeindruckend aus.

Wenn das also stimmen sollte, kann NVIDIA noch so mit Superlativen auf die Pauke hauen, am Ende werden sie trotzdem nur die zweite Geige spielen.

Als Superlativen beim angeblichen Topmodel sind zu nennen: Riesiger monolithischer Die, doppelter Stromverbrauch, doppelte Kosten und trotzdem wird man wenn die Gerüchte den stimmen sollten, im besten Fall ca. 20% bei der Gaming Performance hinterher hinken.

Navi 31 hingegen: Kostengünstigeres MCM Design, moderater Mehrverbrauch und trotzdem bis zu 25% schneller.
 
Ihr seht das falsch....
Wenn in Deutschland doch eh jeder eine PV Anlage auf dem Dach haben sollte, ist das mit dem Stromverbrauch kein Thema mehr, da is genug übrig.... ;)
Das läuft dann unter dem Thema Smart Energy...
Du magst das ironisch meinen, doch bin ich gerade dabei die gewisse Grundlast, die mit Computern einhergeht, genau damit in Teilen zu decken. Jetzt nicht für eine 300W RX6900XT aber für das NAS, den Router, die Switches und APs und all die anderen eigentlich für sich nicht viel saufenden Geräte, die mich in der Summe im Jahr aber viel Geld und CO2 kosten.
 
Hoffentlich nicht, ein Krieg braucht heute keiner.
Werden aktuell auch schon genügend geführt (wenn auch unkonventionell)
Die CCP sollte man sowieso mal zurechtweisen , leider sind unsere Politiker dazu zu feige.
Ja :heul:
China weist keiner zurück, benutzt man doch auch China bisher als billige, verlängerte Werkbank westlicher Firmen. Das wird sich natürlich rächen, weil das Know-How abgekupfert wird, und man, wenn der Westen zu blöde war, eigene Produktionskapazitäten zu erhalten, irgendwann nur noch die Preise seitens den chinesischen Herstellern diktiert bekommt. Aber die Konsum-Lemminge bezahlen ja eh jeden Preis.
Öhm….Du sprichst da von „wird sich rächen“. Ist dir aufgefallen was seit einiger Zeit los ist? Es „hat sich bereits gerächt“ und es wird noch viel schlimmer werden. Deine Formulierung passt nicht mehr ins Jahr 2021. Wir sind schon viel tiefer in diesem Schlamassel als viele es ahnen.
 
Das die beiden chips es gibt ist klar
Ds die beiden deutlich mehr leistung haben werden auch
Das diese aber für den consumermakt kommen werden nein
FP32 wovon alle ausgehen ist der wert der eine leistung ebschreibt einer gpu seit 2006
Als mit dx10 die starre pixel und evrtex shader vereint wurden.Und durch primitive texel und rop ersetzt wurden
ROp hgab es schon vorher und stellen das rastergitter her je mehr desto genauer kann das netz sein. Die reine pixelberechnung ist jetzt flexibel und wird in den united shader verarbeitet und vom daher kommt der begriff floating point
Vorher wurde das per mb bis gb/s an pixel und texel ausgegeben.

Nviida Spezial aufbau des ampere chip und kommende gpu
es sind afaik 50% fp32 und 50% fp16 Einheiten verbaut
Die 50% fp16 können allerdings zu ganzzahl also 50% dessen auf fp32 laufen.
bedeutet in einen sm derzeit 128 sind 96fp32 Ausführungen möglich.
das macht beim ad102 wenn nviia die Aufteilung nicht ändert
18432*2 Operationen pro Takt/ 2 (fp32+fp16)*1,5 reale fp32*2,5ghz=69tf
amd gegensatz dazu rdna3 n31 15360*2*2,5=76,8tf

beide aber hängen am SI beim amd sind das theoretische 3,51gb/s
bei nvidias ohne inf cache kommen wir auf 1,08gb/s
nvidia hat ein großes SI Problem das die gpu die 69tf nicht auf die Straße bekommt weswegen ich davon ausgehe das nvidia entweder einen eigene cache auf der gpu setzen wird oder was wahrscheinlicher ist ein zwischen speicher als hbm drauf ist.
Quasi dassselbe prinzuip wie bei amd aber mit dem unterschied das man das per L4 cache löst das umgeht nvidia Lizenz Schwierigkeiten mit amd.
Folglich wird der ad102 monströs bis zum max der Produzierbaren 5nm Belichtung (800mm²)
Was einen comsumer launch komplett ausschließt
Für nvidia wäre es sogar billiger ganz auf gddr6x zu verzichten und auf hbm zu wechseln.

Was aber kommen wird ist ad106 mit gddr6x 80sm
Und refrresh ampere auf 6nm ga104 /48sm und ga106/28sm
ga107/24sm wird auf samsung bleiben.
Ampere sollte ursprünglich auf tsmc 7nm kommen dafür gibt es tape outs wurde aber nix draus weil nvidia sich beim poker verschätzt hat (2018).
Man hatte quasi nicht genug Kapazitäten was jeden chip je weiter in entwicklung gekommen ist auf samsung umgestellt werden musste.
Folglich ist ampere deutlich stromhungriger geworden als geplant und man musste die chips ans limit oc

Der 6nm refresh ist quasi sicher irgendwann q3 2023
Die high end chips sind aber
n32 mit 120cu und 2,5ghz ~400w 38,4tf 3,51tb/s
und ad104 mit 120sm und 2,5ghz 550w 57,6tf 1,08tb/s
wobei amd hier klar gewinnt.

nvidia muss was am cache tun um den abstand zu verringern einzig die Hoffnung das amd mit dem internen cache latenzen hat könnte beide gpu gleichschnell werden lassen. Nehme ich nur gddr6x vs gddr6 an wird nvidia am SI verhungern.
Nvidia hat keine andere Wahl als ad102 und ad104 mit hbm2e auszuliefern mit 8072bit an chiptakt.
was dann etwa 2,5tb/s ergibt
Monolithisch kann nvidia nicht mit nur 384bit gegen inf cache und realen 936gb/s =3,51tf/s ankämpfen einzig amd mcm Ansatz könnte da Probleme machen.
ich wette das nvidia darauf setzen wird das unter windows zwar die amd gpu als Monolithen gesehen werden kann aber real nur zur hälfte arbeiten kann.
Mit glück kommt man wie bei gcn auf 60-80% fp32 load.
was wieder treiber magie voraussetzt

Und bei den tf menge kann ich nur sagen das diese sowieso nur mit dxr und pathtracing genutzt werden kann. Das cpu limit setzt schon jetzt ab 1080p ein egal ob amd oder nvidia und die cpu werden maximal 50% im singlecore schneller (zen4 2023 intel4 fertigung nachfolger in 2024)
Aktuell ist man bei etwa 270 cb15 danach wird es etwa 405 cb15 sein
zen 4 0 ryzen 7000 2023
intel4 = core i14th gen 2024
ab dann sind die 80cu und 84sm auslastbar etwa 26tf auf 1080p

Nächster schritt am desktop zen 3d +15% ipc durch mehr cache am4
zen 4 +50%( ja die haben auch 3dcache) Architektur Verbesserung +35%

Wichtiger sind die strom Ersparnisse durch 5nm und 6nm
5nm reduzierung -50% vs samsung 8nm node 80sm 350w vs 80sm =175w
7nm vs 6nm -20% und -30% vs 8nm samsung
amd 40cu 140w und nvidia 48sm 140w
amd wird allerdings auch kein n34 bringen sondern so
n31 servermarkt
n32 consumer high end
n33 80cu
n22 refresh 6nm 40sm
n23 32cu
n24 cancelt ursprünglich 18cu

Für uns konsumenten gilt rtx4060 +80% Leistung (ga104)
rx7600xt +90% Leistung (n22 refresh)
nvidia lovelace und amd rdna3 wird high end vorbehalten sein mit entsprechenden verbrauch von 350w

Die ganzen Horror Vorstellung das man demnächst min 1200w Netzteile braucht ist völlig an den haaren herbeigezogen

Zum Schluss spiele werden für die Konsolen designet folglich sind 10-14tf das maximum was will man dann mit 40-60tf?
Puh, extrem viel Spekulatius und regelrechtes Kaffeesatzlesen; nachfolgend nur mal die auffälligsten Punkte:

o RDNA3 und Lovelace sind explizit für den Cosnumer-Markt gedacht und das sowohl bei AMD wie nVidia über alle Chips hinweg. Das einzige, was denkbar wäre, ist, dass es gar ein 4-fach-MCM-Design von RDNA3 geben wird und nur dieses für deren Radeon Pro-Produkte kommt, übermäßig wahrscheinlich ist das jedoch nicht, da AMDs erster Wurf voraussichtlich lediglich imstande sein wird nur zwei Chips zu verbinden, insbesondere, wenn die Energieaufnahme der bisherigen Gerüchte bereits grob in die richtige Richtung verweist, also 400 - 500 W für bereits ein 2-Chip-MCM.
Bei nVidia wird ebenso auch der größte Chip (ggf. ein GL102 ?) als Top-Consumer-Produkt kommen, was für nVidia unverzichtbar ist, weil das erst überhaupt ihre hohen Margen bei der Fertigung derart großer Chips ermöglicht, da es sich hier am Ende fertigungskostentechnisch um eine Mischkalkulation zwischen den vertriebenen ProfViz- und Consumer-Karten handelt. Im Massenmarkt wird man voraussichtlich bei der bewährten Formel bleiben und eine Hand voll/mehr SMs deaktivieren.

o Die Angabe zu FP16-Einheiten zu Turing ist gesichert falsch, anzunehmenderweise auch zu Ampere als evolutionäre Weiterentwicklung (wobei nVidia die architektonsichen Details nicht soweit runtergebrochen hat und die Details zu Turing erst sehr spät durchsickerten).
nVidia verwendet in den Shadern in Turing einen FP32- und einen INT32-Funktionsblock, die nun parallel arbeiten können und in Ampere nun einen FP32- und einen kombinierten INT32/FP32-Funktionsblock. Dedizierte FP16-Einheiten gibt es hier nicht (voraussichtlich ebenso wenig in Ampere).
In Turing wurden bei den großen Modellen FP16-Operationen über die Tensor Cores geroutet, was nVidia effizientere Designmöglichkeiten bot. Entsprechend mussten bei den kleineren Turing-Modellen, so bspw. dem TU1116, aufgrund des Entfalls der Tensor Cores dedizierte FP16-Einheiten hinzugefügt werden, was offensichtlich größentechnisch dennoch einen Vorteil bot.


o Deine Rechnung zu den TFlops ist falsch. Geht man von den bisher kolportierten Werten aus, die auch in diesem Artikel erneut angeführt werden, dann wird ein monolithisches Lovelace-Topmodell mit 18432 "Marketing-Shadern" (oder der Vollausbau? also eine LG102 als RTX 4090 hat ggf. etwas weniger?) bei 2,3 - 2,5 GHz Boost-Takt 84,8 - 92,2 TFlops Peak-FP32-Performance aufweisen und dadurch bei FP32 erneut deutlich leistungsfähiger sein.
Bei AMD dagegen hat sich am FP32-Durchsatz seit bspw. Vega10 nichts verändert und das skaliert hier linear mit der CU-Zahl und Boost-Taktrate. Entsprechend resultiert dies bei RDNA2 als Navi 21 mit 2,25 GHz zu 23,0 TFlops und würde für ein RDNA3-Topmodell mit zwei Dies mit zusammen 15360 ALUs bei 2,4 - 2,5 GHz zu 73,7 - 76,8 Peak-TFlops führen. ***)

*) Die Shader-Kerne, CUDA-Cores, ALUs beherrschen für die Angabe der Peak-Flops eine MAD-Operation die effektiv zwei Flops pro Cycle prozessiert und von den Herstellern als Basis für die Peak-TFlops-Angabe genutzt wird. Das Ur-Pascal nutzte noch 128 ALUs pro SM und kam bei bspw. der GP102 als 1080 Ti mit 1582 MHz Boost-Takt zu 11,34 TFlops theoretischem FP32-Peak-Durchsatz.
Turing steigerte die Gaming-Leistung durch eine dedizierte INT32-Einheit, der FP32-Durchsatz blieb unverändert und man kommt mit dem TU102 als 2080 Ti bei 1635 MHz Boost-Takt zu 14,23 TFlops.
In Ampere tauschte man dann die dedizierte INT32-Einheit gegen eine kombinierte INT32/FP32-Einheit, was zu der beobachteten "FP32-Verdoppelung" führt und ein GA102 als RTX 3090 mit 1695 MHz Boost-Takt erreicht nun 35,58 TFlops theoretische Peak-Performance.
In Games skaliert das nachvollziehbarerweise nicht linear, in einigen Compute-Workloads kommt man dagegen tatsächlich nahe dieses theoretischen Peak-Wertes.
**) Wie man die CUDA-Cors seit Ampere nun zählt ist eine Frage der Sichtweise. Aus technischer Sicht würde ich verbreiterte CUDA-Cores mit nun 1xFP32 und 1xFP32/INT32 skizzieren, nVidia's Marketing spricht nachvollziehbarerweise lieber von einer doppelt so hohen CUDA-Kernzahl.
***) Bei AMD ist der Wert jedoch noch ein wenig mehr theoretischer Natur aufgrund deren seit einigen Jahren weiterer Unterteilung in Base-, Game- und Boost-Takt.

o "beide [nVidia & AMD] aber hängen am SI"
Die Aussage ist in dieser Form mindestens obsolet, da jedwedes datenverarbeitende Design von der Bandbreite abhängt, mit der diesem Daten zugeführt werden können.
Darüber hinaus ist die Bandbreitenaussage zu AMD vollkommen falsch. Bleibt es hier aus Kosten- und Marktverfügbarkeitsgründen weiterhin bei GDDR6 wäre das bestmöglich zu erwartende Szenario für RDNA3 256 Bit pro Chip mit GDDR6 mit 18 Gbps/16 Gb-BGAs. Das führt zu einer kumulierten Gesamtbandbreite von rd. 1,13 TiB/s.
Bei Lovelace dagegen weiß man noch nicht was nVidia an GDDR6-Bandbreite für notwendig erachtet. Da das OC-GDDR6 stromhungriger ist, wäre es denkbar, dass die weiterhin bei 384 Bit bleiben und stattdessen die Caches vergrößern (entweder direkt den L2$; der GA100 verfügte bereits über einen übergroßen L2$) oder aber man fügt auch hier schlicht einen zusätzlichen L3$ in die Cache-Hierarchie ein.
Schlussendlich ist das aber auch nur von sekundärem Interesse, denn am Ende muss das SI der GPU in seiner konkret verwendeten Ausbaustufe gerecht werden, da andernfalls die GPU ausgebremst werden würde und das wiederum würde bedeuten, dass man sinnlos Geld verbrennen würde in Form von teuerem Silizium, das seine Leistung nicht entfalten kann und daher auch keine werbetechnische Wirkung besitzt, bei TSMC/Samsung aber natürlich dennoch bezahlt werden müsste.

Darüber hinaus erscheint es weiterhin nicht übermäßig wahrscheinlich, dass nVidia auf HBM2 wechselt. Das hätte man auch schon mit Ampere tun können, die Kosten sprachen jedoch offensichtlich eher zugunsten einer Kooperation mit Micron und man darf annehmen, dass die das min. noch eine weitere Generation fortsetzen werden.
Dennoch könnte nVidia Ende 2022 mit optimierteren BGAs aufwarten, denn die Speicherhersteller stellen ihre Produktion bereits in Teilen auf EUV um, was die Effizienz steigern könnte. Bereits deren alte Bausteine waren mit 21 Gbps spezifiziert, konnte aber aus diversen Gründen mit Ampere nicht sinnvoll über 20,0 Gbps betrieben werden. Wenn sie nun tatsächlich 21 Gbps von Micron erhalten sollten, würden sie 0,98 TiB/s erreichen und könnten mit einem vergrößerten Cache mit dem kleineren SI mit dem zu AMD skizzierten Maximal-Szenario mithalten (und würden energetisch möglicherweise gar keine Nachteile hinnehmen müssen, da man mit weniger aber etwas stromhungrigeren DDR6-Controllern und weniger BGAs auskommen würde?).

o "Ampere sollte ursprünglich auf tsmc 7nm kommen dafür gibt es tape outs wurde aber nix draus weil nvidia sich beim poker verschätzt hat (2018)."
Die Aussage ist nach wie vor vollkommen unbelegt und schon weniger Spekulatius als vielmehr Verschwörungstheorie. nVidia und Samsung haben bereits seit langem eine Partnerschaft und man weiß nach wie vor nicht genau die Gründe für eine Verlagerung der Consumer-Fertigung. Im einfachsten Falle ging es um eine höhere Marge, die man mithilfe von Samsung realisieren konnte und sieht man sich das Endergebnis an, hat es nVidia nun tatsächlich nicht nötig mehr (kosten)technischen Aufwand zu betreiben um RDNA2 in Schach zu halten. Konkret dürfte es gar noch deutlich besser als erwartet für sie laufen, da AMD derzeit gar GPU-Marktanteile verliert.
Obige Urban Legend wird nicht valider oder gar zum Fakt dadurch, dass man die im Forum gebetsmühlenartig widerholt. Einziger Fakt in diesem Kontext ist: Man kennt den (oder die) tatsächlichen Grund nicht!

Darüber hinaus: Ampere wird auch bei TSMC gefertigt. Der GA100 ist ebenso Ampere und man kann davon ausgehen, dass die IP-Block-Designs hier weitestgehend Node-agnostisch vollzogen wurde um nicht das Rad zwei Mal erfinden zu müssen. Die etwas andere Zusammensetzung für die unterschiedlichen Chips ist dagegen ein anderes Thema.
Für Lovelace kann man aber (zumindest für die Topmodelle) tatsächlich mit einer etwas höheren Wahrscheinlichkeit von einem TSMC-5nm-Prozess ausgehen, da nVidia den für ein monolithisches Design voraussichtlich benötigen wird, wenn man ein MCM-Design kontern will. Samsung's 5LPE ist bzgl. PPA deutlich weiter entfernt von TSMCs 5nm-Prozessen, sodass der voraussichtlich für ein derartiges Vorhaben schon rein aus (konkurrenz)technischer Sicht nicht ausreichen würde. Dennoch könnte man weiterhin spekulieren, dass kleinere Lovelace-Designs ggf. erneut von Samsung kommen werden zur Optimierung der Marge und Entspannung der Kapazitätsfrage?

o "wobei amd hier klar gewinnt."
Lol, an dir ist ein echter Prophet verlorengegangen. Du pickst dir die gemäß deinem persönlichen Gusto bestmöglichen Werte und Wertkombinationen heraus und erklärst einen vorab zum Sieger, faktisch ohne auch nur die geringste Ahnung zu haben. Nicht schlecht.
Vielleicht sollte man es hier einfach dabei belassen, dass man dazu derzeit schlicht keine Aussage treffen kann, da man weder die Einzelwerte bestätigen kann noch ob die angenommenen Leistungswertkombinationen zutreffen?
Nur am Rande: Selbst wenn AMD Ende 2022 oder Anfang 2023 tatsächlich das Lovelace-Topmodell übertreffen wird, ändert das nichts an der Qualität deiner hier und heute getroffenen Aussage. ;-)

o "Nehme ich nur gddr6x vs gddr6 an wird nvidia am SI verhungern."
Hier wird es jetzt so langsam grausig. Zuvor hast du wenigsten noch argumentativ nachvollziehbar was versucht darzulegen, wenn du dich stellenweise auch vergriffen hast, das hier jedoch geht schon eher in das berühmt-berüchtigten "Forumsgehabe".
Nach aktuellem Stand wird da niemand "verhungern", da nVidia bereits mit ihrem aktuellen SI bis zu 0,91 TiB/s erreicht und wie oben schon dargelegt, wird AMD da rein bezogen auf das GDDR6-SI nur in überschaubarem Rahmen darüber hinaus kommen. *)
Das "verhungern" könnte bestenfalls auf die aktuelle Konkurrenzsituation angewendet werden, da hier RDNA2 mit tatsächlich nur maximal 0,5 TiB/s aufwarten kann, aber selbst hier war das schon weitestgehend unbeholfene Polemik, da das Defizit weitestgehend über den vergrößerten L3$ von RDNA2 ausgeglichen wird.

*) Ergänzend dazu werden die potentiellen/spekulierten 32 GiB GDDR6 auch keine "freiweillige Dreingabe" von AMD sein, sondern ein technisch notwendiger Kompromiss, denn AMD hätte hier sicherlich nichts dagegen zu sparen und eine höhere Marge einzufahren, denn 32 GiB machen hier kaum noch Sinn auf Consumer-Hardware, würden sich bei einem derart angedachten Layout aber voraussichtlich nicht vermeiden lassen, da die nächstkleinere Option dann wieder nur 16 GiB wären.
Andernfalls müsste man doch ein etwas breiteres SI anbieten, was aber wieder mit der für den L3$ verwendeten Siliziumfläche kostentechnisch kollidiert.

o Für eine vermeintliche Sinnhaftigkeit die Shader-TFlops und Pathtracing zu kombinieren als einziger Pluspunkt bei nVidia ist unsinnig, da die Shader hier weniger relevant sind, da die RT Cores bzgl. Ray-Intersection und -Traversal deutlich leistungsfähiger und entsprechend bevorzugt diese zu verwenden sind.
Wäre dem nicht so, wäre die Implementation derart dedizierter HW-Einheiten völliger Unsinn und dann hätten sich offensichtlich auch AMD und Intel dieser völlig unsinnigen Implementationsweise angeschlossen ... eher weniger plausibel, oder? ;-)

o Zen4 und V-Cache im Consumer-Markt ist bisher reiner Spekulatius. Kann natürlich irgendwann kommen, ob es derartiges jedoch schon in 2022 zu sehen gibt, ist derzeit ungeklärt und eher den feuchten Träumen von ... ;-) Hierzu gibt es schlicht keinerlei belastbare Aussagen und was auf dem Servermarkt geschieht hat erst mal wenig mit dem Consumer-Markt zu tun.
Der V-Cache ist für AMD in der Fertigung noch einmal deutlich teurer, was schlicht auf die Marge drückt, da man den Preis im Consumer-Segment nicht beliebig erhöhen kann. Sollte Zen4 mit seinen architektonischen und prozesstechnischen Verbesserungen einen ausreichend großen Zugewinn erzielen können, darf man davon ausgehen, dass V-Cache-Modelle im Consumer-Markt erst später nachgereicht werden.

o "strom Ersparnisse ... 5nm reduzierung -50% vs samsung 8nm node 80sm 350w vs 80sm =175w
7nm vs 6nm -20% und -30% vs 8nm samsung
"
Grausige Milchmädchenrechnung/abschätzung bzw. eher Raten. Es gibt keine wirklich belastbaren Aussagen zum Vergleiche eines Samsung 8LPP zu einem nicht näher definierten 5nm-Prozess von TSMC (bei letzterem werden in 2022 gar derer drei zur Verfügung stehen, N5, N5P und N4). Die PPA-Zugewinne liefern die jeweiligen Hersteller jedoch ausschließlich relativ zu ihren eigenen, älteren Nodes.
Die Aussage zum 7nm-Vergleich ist ebenso fragwürdig bzw. konkret gar schlicht falsch. TSMC äußerte sich bzgl. des N6 vorrangig zur Flächenreduktion und vermied es Zahlen zu Power und Performance rauszugeben, voraussichtlich, weil man hier nicht den Fokus zu deutlich auf die kleinen Vorteile legen wollte. Typischerweise erklärte man immer nur eine bis zu 18 % höhere Logikdichte (i. V z. N7), nicht mehr. Der N6 ist vorrangig eine Korrektur des N7+-Entwicklungszweiges, der bzgl. der Design Rules inkompatibel zum bisherigen Portfolio war und daher nur selten genutzt wurde. Mit dem N6 bietet man nun einen sinnvollen Migrationspfad für kostensensitive Kunden ausgehend vom N7 oder älteren Nodes und auch hin zu 5 nm. Am ehesten kann man noch eine Ableitung vom N7+ versuchen, zu der TSMC zumindest bis zu 10 % bessere Power Efficiency angibt i. V. z. N7. Der N6 wird da nichts Übermäßiges drauflegen können und ob diese Möglichkeit überhaupt in vollem Umfang genutzt werden kann ist noch eine ganz andere Frage.

o "Für uns konsumenten gilt rtx4060 +80% Leistung (ga104)
rx7600xt +90% Leistung (n22 refresh)
"
Lol, das Orakel von Delphi wäre sicherlich hocherfreut über jemanden wie dich als Hohepriester gewesen. Dein einziges Problem wäre wohl gewesen, dass zu viele Falschaussagen zu der damaligen Zeit eher drastischen Folgen nach sich gezogen hätten. ;-)
Bezüglich einer derart intendierten Aussage könnte man bestenfalls eine Leistungsspanne abgeben und diese müsste gar noch einigermaßen großzügig dimensioniert sein, wenn man eine halbwegs akzeptable Trefferquote/Wahrscheinlichkeit gewährleisten wollte, sodass das Tätigen einer solchen Aussage überhaupt erst einen Sinn ergibt.

o "Die ganzen Horror Vorstellung das man demnächst min 1200w Netzteile braucht ist völlig an den haaren herbeigezogen"
Zur Abwechslung dann mal tatsächlich ein Satz, denn man so stehen lassen kann. ;-)
Insbesondere wenn man berücksichtigt, dass man eine 3090 FE selbst im CPU/GPU-OC jetzt schon mit einem qualitativ guten Mittelklasse-NT der 750 W-Klasse stabil betreiben kann.
 
Alle dürfen DANKE zu Intel sagen!
Jetzt müssen AMD und nVidia wieder einmal aus der Komfortzone kommen.
Die ärmsten AMD und nVidia haben ja viel mehr verdient 2021 als erwartet obwohl sie keine Chips verkaufen.
Ganz schlimm, die Medienleute von AMD und nVidia mussten ausrücken und traurige Geschichten verbreiten, alles Zeitgleich, selbst die Hersteller der Produktionslinien sind heute ausgerückt, die können leider momentan keine neuen Produktionslinien verkaufen, selbst Second Hand Maschinen werden zu Neupreisen verkauft.
Ganz ganz traurig! Und nach meinem Ableben erwartet mich Petrus auf Wolke 7 mit einem Goldenen Schlüssel in der Hand vorm Himmelszaun und kontrolliert ob ich den Kirchenbeitrag brav bezahlt habe.

Quarterly Earnings Recap

In the second quarter of Fiscal Year 2022, Nvidia earnings soared 282% while revenue increased 68% year-over-year. The company reported record quarterly revenue from its key business segments such as Gaming, Data Center Solutions, and Professional Visualization.

Gaming revenue was up 85% from a year ago, aided by the sale of GeForce RTXTM 30 Series, while Data Center and Professional Visualization revenues increased 35% and 156%, respectively.
 
Bei diesen Leistungssprüngen stellt sich die Frage nach dem Verbrauch. Wahrscheinlich sind die ~500W doch wahr. Jeez, wie soll das gekühlt werden.
 
@gerX7a
ich habe turing aus guten Grund nicht erwähnt (rtx2000 serie)
ja ampere ist in einen shader modul auf 64 fp32 einheiten und eine multifunktion einheit mit fp32 fp16 int32 int 16 und int 8 fähig
Während die fp32 einheiteh nur fp16 können
Das aber ist variable vom sku so einprogrammiert diese flexibilität ist praktisch für die produkte von ai beschleunigung wie tesla und profi grafik karten quaddros
Demzufolge kann ampere in einen sm 128 halbgenaue floating points aufgaben oder 3/4 ganzahl berechnung oder zur häflte int32 int16 oder in int8

Für gamer ist es egal ob hier 96fp32 durch int 32 unterbrochen wird oder durch fp16 aufgaben.
Das Ergebnis ist das nur fp32 in gaming zählt.

Zur SI Debatte nun damit meine ich nicht die die bit Anbindung sondern die speicherbandbreite diese sind verbunden.

Wie komme ich darauf das amd 3,0tb/s (ja ich habe den rechenfehler gefunden)
Folgende Rechnung
256bit *18gbits gddr6/1000/8) datenströme pro takt =576gb/s
Nun zum inf cache der ist laut amd mit 512bit je 128mb angebunden 512 sind drin also 2048bit diese mal gpu clock von 2,5ghz da der cache gleichschnell läuft wie der gpu Takt. dann die hitrate des cache amd gibt hier 48% an im Idealzustand
also 2048*2,5/1000*0,48=2,46tb/s
2,46+0,576=3,0tb/s
Theoretische bandbreite real dürfte das stark schwanken von 2,0-3,0tb/s


Die berechneten 39,8tf des kleineren n32 Modell wo 2 mcm und ein io die verbunden sind ich wette das man den inf cache im i/O platziert als L4 cache vermutlich 384mb
Und in den beiden anderen mit 80cu tei.ldeaktivierten n33 chiplets auf 60cu reduziert und die haben dann jeweils 64mb drin.
Die große frage lautet nun wie will amd die latenzprobleme die zwangsweise mit nen aktiven interposer lösen.
Die chipanbinung pro inf cache zum i/o müsste dann 1024bit sein und der inf cache selbst am SI zu gddr6 dann 256bit
Besser wäre es wenn der i/O die einen 512bit anbindung hätte das aber ist wirklich geraten vom mir.
gehe ich vom design rdna 2 aus
Diese sind mit 1024bit am l2 verbunden der dann im si zu 256bit geddr6 geht
Da man aber beim n31 und 32 den Si auslagert auf dem I/O die erledigt sich die chipfläche
Die große frage ist wie hat amd die latenzprobleme zwischen den einzelnen gpu und den cache gelöst.
Gut möglich das die hitrate sogar sinkt auf nur noch 24%

Nvidia dagegen hat keine andere Wahl wie will man 69tf oder beim kleineren angenommenen gpu 57tf
genügend speicherbandbreite haben
die zu erwartende 1,08tb/s reichen nicht aus.
Derzeit sind sogar die rtx3090 oft bandbreiten limitiert da die 976gb/s nicht reichen für 4k bis 8k
Das merkt am nur an den fps da die gpu Auslastung dies nicht wiedergibt
gutes bsp war mal ein treiberbug der den vram Takt auf 400mhz gesetzt hatte
Trotz gpu load von 100% kam nur ein Bruchteil der Leistung raus von 60fps blieben 15fps
auch guter indikator ist dann der vram takt und temps sind diese auffällig gering stimmt was nicht.

Zurück zum Problem
Nvidia hat keine andere Wahl min muss nvidia 2,0tb/s erreichen entweder durch neuen noch nicht specifizierten gddr7 speicher oder durch HBM2e
Letzterer ist sicherer
ein 512bit Si wird zu teuer da man das SI nicht stark shrinken kann folglich kostet es chipfläche die sehr teuer ist mutmaßlicher waferpreis von 16 000-20 000$
Ein größerer l2 cache würde das nur bedingt lösen da müsste man diese vervierfachen was wieder mehr chipfläche kostet da der cache wie das SI sich schlecht shrinken lassen.
Und lovelace soll etwa 50-80% kleiner werden bei 50% Energie Einsparung
Diese zahlen sind interpoliert ich weiß
Wie ich drauf komme nun zwecks samsung 14nm node vs 10nm node diese gibt es das waren 10% energie einsparung zu 8nm vermutlich auch 10%
tsmc 16 auf 12nm waren 10% von 12 auf 7nm waren 60%
Voraussichtlich von 7 auf 6 wie erwähnt 10% auf 5nm sind es offiziell 20% bei 50% Flächenreduktion
genau sind es angeben von 25-30% Energie Einsparung bei 50% Fläche vs 7nm Angabe von tsmc
Unklar äußert sich nur samsung zu den Vorteilen bei 5nm lpe
tsmc 5nm vorgaben sind fest
Nehme ich die Steigerungen von 14 auf 8nm und prozentual gleiche Annahme und setze gegen tsmc verbrauch Vorteile zwischen 12 und 7nm gleich multipliziere ich die beiden kommt da 50% weniger strom als 8nm raus und bei 7 vs 5 20% weniger strom bei der fläche sind es grob -80% vs amd vermutlich -40%
da ich aber davon ausgehen das man die flächenvorteile aufgibt für mehr heatspreading
sind eben 50% kleiner und 50% effizeniter als ampere bei gleichen takt. (1,8ghz)
das reduziert natürlich sich je höher der Takt geht, gehen wir von allen sku ab 2,5ghz aus ist die Energieeffizienz weg
Was ziemlich dumm wäre.
Allein deswegen weil man ab derzeit 14tf im cpu limit hängt und die nächste cpu gen (zen3d und core i13th) 2022) ab 20tf auf 1080p
Was so ziemlich die mainstream Auflösung ist 1440p kommt gerade hoch.
26tf derzeit können nicht ausgelastet werden von keiner cpu auf 1080p mit der zen 4 Generation könnte es klappen.
Zen 5 2024 kann es zu erwartende Leistungssteigerung vs zen 3 75%
Dann sprechen wir von 35-40tf auf 1080p ab hier muss man sich Gedanken um fps limiter machen. Da hier einige engines einfach zusammenbrechen würden.
Aktuell übernimmt diese Vorkehrung der Treiber von sich aus. Um die gpu vorm überhitzen zu schützen so über 2000-6000fps sind nicht gesund siehe new world desaster.
Das einzige was derzeit gpu vorm Tod schützt ist das cpu limit
Den kein spiel mit directx hat ein fps limit sofern nicht vom game so hin designet wurde.
bsp doom 2016 200fps limit
Generell wird es sowieso schwieriger immer mehr tf sinnvoll zu nutzen einzige Lösung ist hier dxr oder sogar pathtracing
Und das die Konsolen nicht vor 2025 erneuert werden bleibt eben die maximal Anforderung auf 1440p bei 14tf
am pc sind dann 26tf das größte
Was will man dann mit 39-57tf?
8k gaming? auf 27zoll?
Das Problem der Skalierung besteht weiterhin Industrie Standard sind 96dpi darauf basieren alle Programme alles was mehr ist wird interpoliert upscaled.
Es wird also nix schärfer sondern nur größer und wenn dann display größer werden ? Sitzt man dann 5m vom Bildschirm weg
Real ist 24 und 27zoll am Schreibtisch oder am tv 32-42zoll mit 1080p bis 4k
Die meisten würden selbst mit 3m abstand auf nen 32 zoll 4k kaum die die Schrift lesen können
Womit wir bei min 50zoll wären
Das menschliche Sichtfeld hat grenzen es gibt eben idealabstände am schreibtisch ist das 24 zoll auf 50cm oder 27 zoll mit 60cm alles was größer ist ist aus dem primären Sichtfeld.
Schärfer wird nix dadurch nur größer wenn schärfer ist liegt das am display nicht an der Auflösung
27 zoll 1440p hat pixelabstand von 0,16mm 24 zoll von 0,25mm
32zoll 4k 0,06mm
ich will den sehen der dann noch 12pixel Schrift auf 4k lesen kann dabei ist word schon skaliert
12*3*0,06mm=2,16mm
12*3*0,25=9mm
Ihr seht skalierung wird immer wichtiger nur müssen das Programme berücksichtigen und keiner passt alte Programme an folglich wird man später gpu Leistung limitieren müssen und ein externer scaler dann alles upscalen was Unschärfe bringt wer nativ bleiben will
Und lediglich auf framegröße hochskaliert (Ganzzahl) wird eben alaising haben aber es ist scharf.
Das aber sehe ich nicht als Lösung an die echte Lösung ist dxr und pathtracing
Und das passiert nicht bevor die Konsolen das können und das sehe ich frühestens 2026 wo Konsolen bei 40tf sind
Hier ist die ue5 maßgebend
Also Nochmal was will man mit 40-60tf am Desktop?
Gut möglich das der kleine ad106 (80cu 2,5ghz) lovelace sku am consumermarkt kommt (+35%) und nur ampere refresh in 6nm mit mehr Takt.
amd dann nur den n33 als high end bringt 80cu bei 3ghz mit 256mb inf cache (+40%)
Das ist am wahrscheinlichsten.

Und ich spreche nicht mal von der chipkrise die noch bis q3 2023 anhält
offiziell geht man davon aus das sich die Lage bis 2023 nicht ändern wird. und sogar es noch teurer wird.
Da brauche wir nicht über massiven +125% mehr Leistung sprechen und von enormen Energieverbrauch ab 500w
Diese gpu sind klar server und profi karten orientiert.

amd und nvidia ist klar das man das Preisniveau nicht halten kann sobald die miner raus sind fällt der preis
Die uvp wird allerdings ansteigen.
Wartet ab als man noch juni davon ausging das pos kommt fielen die preise als dann das verschoben wurde auf dez und kurz danach eine Übergangszeit bis 6/22 aufkam explodierte der Kurse und die gpu preise stiegen wieder an.
Um da keine Korrelation zu sehen der ist blind
Aktuell kauft keiner eine gpu über 500€ sondern nur noch fertig Pc weil diese mittlerweile billiger sind als einzelne dgpu
Bleiben als Kunden nur miner

Diese Situation gab es schon mal nur kürzer 2018 auf 2019 wo danach alles abverkauft wurde
Diesmal aber hat amd und nvidia vorgeplant das sie nicht auf Ware sitzen bleiben
So konnte man die uvp anheben um danach zu merken das noch eine mining blase aufkommt und man kann wieder die uvp der nächste gen anheben
Die Lösung ist ein verbot von kryptoeinheiten. Anders wird man der Energieverschwendung nicht Her
am ende könnte sogar blühen das nur noch auf cloud gaming gesetzt wird. oder gpu vermietet werden.
 
Zurück