Geforce RTX 4000 gegen Radeon RX 7000: Nvidia mit Vorteil in der Fertigung?

schön und die leere stellen auf dem wafer? lässt man die unbedruckt

Das ist verschenktes geld zudem ist die yield entscheidend den nicht alle Transistoren sind Fehlerfrei.
Samsung müsste etwa eine 0,4 bis 0,5 fehlerrate haben
TSMC ist bei 0,1
 
@Prozessorarchitektur: Deine beiden Postings strotzen nur so vor Falschaussagen und unzulässigen Ableitungsversuchen weil nicht mal deine Basisinformationen korrekt sind und als du von Vorpostern auf vereinzelte, offensichtliche Fehler hingewiesen wirst, argumentierst du dennoch mit den Falschinformationen weiter. Ist das nur Sturheit oder was anderes?
Ampere ist mittlerweile rund 2 Jahre alt und nahezu jede Seite schafft es die Specs halbwegs korrekt wiederzugeben, nur du nicht und du versuchst dann tatsächlich auch noch irgendwas abzuleiten?
Anstatt bunte Bildchen zu posten, solltest du mal eher die zugehörigen Texte lesen und verstehen lernen, denn dann würde sich so mancher von dir behaupteter Unsinn erübrigen.

Nachfolgend mal eine Zusammenfassung bzw. Korrektur:
> "ga102 nur chip 315w 84sm aktiv von 120sm"
Der GA102 hat insgesamt 84 SMs, was den Vollausbau darstellt, organisiert in 7 GPCs, sieht man auch unmittelbar im Die-Shot und darauf wurdest du auch schon von DARPA hingewiesen (und hast es später erneut ignoriert).
> "ein SM 12alu"
Wenn "alu" nicht gerade ein kompletter Tippfehler ist, ist die Aussage derart falsch, dass man sie schon fast nicht mehr kommentieren kann, da man nicht weiß, was du dir da Krummes ausgedacht hast aber das hat mal gesichert nichts mit irgendwelchen Specs von nVidia-GPUs zu tun.
> "ja ampere hat ein drittel des chips deaktiviert"
Eine vollkommen blödsinnige Verallgemeinerung, da "Ampere" die komplette Architektur bezeichnet, die es in zwei grundsätzlich unterschiedlichen Ausprägungen gibt (GA100 und die kleineren Consumer-Chips), die sich dann auf mehrere Chips aufteilen, auf denen wiederum komplett unterschiedliche Produkte realisiert werden.
Als konkrete Beispiele: Auf der 3090 Ti und der schon seit langem verkauften A6000 ist nichts deaktiviert, da hier der Chip im Vollausbau genutzt wird. Der GA100 hat nur 16 % seiner SMs deaktiviert, bspw. die 3080 nur 19 %, die 3070 hat gerade mal 4 % deaktiviert und die 3070 Ti ist bereits wieder der Vollausbau des GA104, alles Zahlenwerte, die weit entfernt von (d)einem Drittel sind.
> "628/120=5,23mm² pro sm" (stellvertretend)
So eine Rechnung ist absurder Blödsinn (vollkommen unabhängig von dem falschen Zahlenwert "120"), bzw. offensichtlich verstehst du die von dir geposteten, bunten Bildchen nicht. Du solltest noch mal einen genaueren Blick auf den annotierten Die-Shot werfen, denn dann würde dir aufgehen, dass die SMs bereits nur einen Teil der Chipfläche ausmachen und Ableitungen in Richtung Lovelace mit dessen nur skizzenhaft bekannten Änderungen sind noch problematischer.
Damit du aber nicht noch länger hilflos auf diese grellen Bildchen blicken musst hier die Auflösung: Beim GA102 machen die SMs gerade mal 49 % der Chipfläche aus (vorausgesetzt die Die-Shots sind nicht nennenswert verzerrt abgebildet).
Ableitungen in Richtung Lovelace sind bisher reiner Spekulatius, da man nicht weiß was nVidia mit seinen Tensor Cores macht, die noch mehr Funktionalität hinzugewonnen haben in der letzten Iteration, man weiß nicht was sie mit ihren RT Cores machen, die angeblich überproportional an Leistung hinzugewinnen sollen, man weiß nicht wie sich das Display/Media-Backend dazu verhält und ebenso der deutlich größer werden L2$.
> "Ga100 144sm aktiv 128
ga102 120sm 84 aktiv
ga103 96sm 48 akriv
ga104 72sm derzeit 46 aktiv (nur notebooks)
ga106 48sm 28 aktiv
ga104 24sm 20 aktiv
"
Diese Auflistung ist ausgegorener Sch******, denn hier ist nahezu alles falsch! Allgemein macht die Aussage bzgl. aktiver SMs in dieser Form wenig Sinn, da diese von Produkt zu Produkt variieren. Nachfolgend mal einige Auszüge:
GA100: 128 SMs insgesamt, 108 aktiv auf der A100 als SXM4 mit 40 oder 80 GiB HBM2
GA102: 84 SMs insgesamt, dieser Vollausbau findet sich auf der A6000, der A40 und der 3090 Ti
GA104: 48 SMs insgesamt, als Vollausbau in Form der 3070 Ti, die reguläre 3070 hat immer noch 46 SMs
[...]
> "Udn wie bite sol man ungerade sm auf dem chip realisieren"
nVidia kann SMs relativ frei auf dem Chip deaktivieren. Im worst case können sie in Ampere eine TPC nicht mit nur einer SM betreiben und müssen die komplette TPC (= 2 SMs) deaktivieren, aber das weiß ich nicht im Detail.
> "Hier markt man einfach das smsung yield extrem schlecht sind und erst ein 150m² chip so gerde mal die beste ausbeute hat"
"Man merkt das der chip ursprünglich für 7nm designt wurde"
Interessant wie du anhand dieser (Falsch)Informationen einen schlechten Yield ableiten willst oder dass da was für 7nm designt wurde. Bei dem was du in deinen beiden Postings von dir gegeben hast, bis du sicher der letzte der was "merkt".
> "30 und 84sm gehen technisch nicht"
Wo zauberst du nur so einen Unsinn her? 84 SMs ist der Vollausbau des GA102, wie oft denn noch und das obwohl du schon zuvor von DARPA darauf hingewiesen wurdest. 2 SMs pro TCP, 6 TPCs pro GPC und 7 GPCs im GA102, ergibt 84 SMs.
Und auch an den 30 SMs ist nichts Magisches. Das ist schlicht der Vollausbau des GA106. (Die 3060 nutzt davon 28, die 3060 Ti wird auf dem GA104 mit 38 aktiven SMs realisiert.)
> "Mir ist nicht bekannt das man chips mittlerweile Asymmetrisch schneiden kann"
Und gleich der nächste Unsinn. Was hat die Chipfläche mit dem logischen Design darauf zu tun? Selbstredend wird ein Hersteller versuchen beides möglichst nahe übereinanderzulegen, aber auch auf Chips gibt es totes Silizium. Sollte dir bei deinem Foren-Namen eigentlich bekannt sein, wenn der nicht nur heiße Luft sein soll. Hier als Gegenthese "kein asymetrisches Schneiden" zu konstruieren ist vollkommen abwegig und überflüssig.
> "Es ist aber unlogisch wo sind die fp64 wovon nur 24 aktive sind?" (zum GA102-SM)
Anscheinend schaust du dir nur bunte Bildchen an und liest keine Texte. Die nur zur Kompatibilität vorhandenen FP64-Einheiten sind in dem Blockdiagramm des SMs gar nicht abgebildet.
Aus deiner Leseschwäche resultieren dann aber auch natürlicherweise wieder die erneut komplett falschen Zahlen, denn Ampere nutzt in den Samsung-Chips 2 FP64-Einheite pro SM und damit insgesamt 168 FP64-Einheiten auf dem GA102. Auf bspw. der 3090 sind damit gerade mal indirekt vier FP64-Einheiten deaktiviert und auf der 3080 damit indirekt 32 FP64-Einheiten (weil nur 68 SMs).
> "ist was verwirrend" ... "rechts Grau neben dem fp32+int32 ist deaktiviert" (zum Die-Shot)
Nein, da ist nichts verwirrend, nur verstehst du nicht was da farblich marktiert wurde und der graue Bereich (SMs) rechts ist nicht "deaktiviert", sondern einfach nicht farblich aufgeteilt worden, da alle wesentlichen Segmentierungen bereits links daneben hervorgehoben wurden.
> "Hier klärt sich das auf in a100 Dokument"
Nein, da klärt sich bei dir gesichert nichts, weil du nicht verstehst, dass der (G)A100 architektonisch anders aufgebaut bzw. zusammengesetzt ist. Der Datacenter-Chip zielt auf einen gänzlich anderen Markt ab und muss das auch in seinem Design reflektieren. Den hier mit den Consumer-Chips in einer Betrachtung zusammenzuwerfen ist nur bedingt hilfreich bzw. hat dich anscheinend durchweg zu falschen Schlüssen verleitet.
> "Das ergibt dann 32fp64 und 64fp32 =96fp32 wäre da nicht das nvidia hier 8 fp64 deaktiviert hat. Womit wir bei 88 fp32 Operationen sind pro SM." (nach/zum (G)A100)
Erneut wieder falsche Zahlen und wie kommst du auf den Unsinn hier FP32- und FP64-Einheiten für FP32-Operationen zusammenzurechnen?
Die Zahlen sind übrigens kompletter Blödsinn, selbst wenn du die nicht auf den (G)A100 sondern bspw., auf den GA102 bezogen hättest. Aber um dir weitere Kopfschmerzen zu ersparen:
(G)A100: 32 FP64-Ops pro SM und Takt = 64 Flops pro SM und Takt in FP64, sowie die doppelten Ops/Flops für FP32, was schlicht an der doppelten Zahl der FP32-Einheiten liegt. Und nVidia deaktiviert keine einzelnen (FP64-)Einheiten in einem SM. Wenn dann wird der komplette SM stillgelegt, es gibt keine Kartenmodelle/Chips mit bspw. 40,7 SMs.
GA102: 2 FP64-Ops pro SM und Takt = 4 Flops pro SM und Takt, sowie als Peak-FP32-Performance 128 Ops bzw. 256 Flops pro SM und Takt, was zu den rd. 36 TFlops Peak-FP32 der 3090 führt. Die nur zu Kompatibilitätszwecken vorhandenen FP64-Einheiten führen in der Form auch zu dem bekannten 1/64stel FP64-Durchsatz ggü. FP32, das man derzeit beim Consumer-Ampere beobachtet.
> "Lovelace könnte das beibehalten und darauf beruhe die Berechnungen meinerseits ältere noch mit 96 fp32"
Deine sogenannten "Berechnungen" sind für die Tonne, weil deine "96" komplett falsch ist. Darüber hinaus wird schon seit längerem angenommen, dass sich der grundlegende SM-Aufbau bei Lovelace nicht übermäßig ändern wird. Da könntest du genausogut überflüssigerweise orakeln, dass morgen auch wieder die Sonne aufgehen wird.
> "Da mir das mit den deaktivierten fp64 erst kürzlich aufgefallen ist"
Da du nicht einmal verstanden hast, was hier bei FP64 der Sachstand ist, ist dir da offensichtlich auch nichts aufgefallen. Bei den Consumer-Chips ist da nichts in besonderem Maße deaktiviert, die haben alle schlicht 2 FP64-Einheite pro SM und der (G)A100 hat 32 pro SM. Und wie schon zuvor erklärt haben diese beiden Ausprägungen der Ampere-Architektur in diesem Kontext relativ wenig miteinander zu tun.
> "Hier erklären sich auch meine Testergebnisse wo ich nur 74% schneller war als meine alte gpu
gtx1060 etwa 4,9tf
"
Aufgrund dem Unsinn, den du zuvor geschrieben hast, erklärt sich da ganz sicher nichts bei dir, auch wenn du den Eindruck hast, hier irgend eine Art Erkenntnis gewonnen zu haben. ;-) Bereits bei den Basics hast du es nicht verstanden und von den zwei unterschiedlichen Datenpfaden in den Consumer-ALUs in Ampere und der Aufteilung zwischen FP32 und INT32 will ich da nicht einmal anfangen, bevor ich doch noch kompett verwirre.

Schuster, bleib' bei deinen Leisten.
 
Nun also hat Nvidia 8 Unterschiedliche ampere chips designet jedes für sich mit eigener Struktur
abseits der sm in einen gpc ist alles unterschiedlich
Sehr kostspielig
alu ist der hauptbegriff für int32 16 8 4 und fp64 32 16 und kommt aus dem CPU Bereich den Fließkomma Einheiten sind linear.
In der cpu nennt man die auch fpu, da gpu in order Berechnungen sind ist die gpu meister der Parallelisierung solange die drawcalls konstant bleiben.
alu= arithmetic logic unit
Oder mathematische logische Einheit +-*/
FPU: Floating point unit 64 doppelte 32 einfache 16 Halbe
Int32: Integer 32 = ganze, 16=halbe, 8=Viertel, 4=Achtel
Int32 wird in spielen der alten schule vor directx10 genutzt
Alle andern werden nicht in Spielen eingesetzt und können die gpu auch nicht.

Die skus basieren darauf wie gut die yields sind und wieviel vom design aktiv bleiben kann und das mit höchstmöglichen Takt.
Zu glauben das der ga102 84sm hat und keinerlei Fehler im chip sind ist Unglaubhaft. Dafür müsste samsung eine yield von 95% haben bei 628mm²
Und das erreicht Samsung erst bei unter 150mm² chips Siehe ga107
Hier hat man die 4 sm deaktiviert um höher Takten zu können.=Wärmedichte.
alle größeren skus haben große teile des chips deaktiviert.
Wäre die gpc in eine reihe also nicht 2 reihen dann könnte es stimmen mit 7gpc und 12sm
Es ist aber in 2 reihen also 5 *2 = 10gpc nicht Sieben
Darum kann es nur so sein und der screenshot beweist des.
Am ende geht es nur darum das nvidia bei lovelace die energiedichte verdoppelt hat womit entweder geringer getaktet wird oder der chip drastisch kastriert wird.
Und dann auch die taktkeule gehauen wird was den strombedarf auch erklärt
Wie sonst kann man sich 4nm erklären das weniger Spannung braucht dann auf einmal doppelt so viel Strom zieht.
Ich dachte auch das nvidia es schafft bei 57tf 600w braucht aber es sind nur 48tf bei 1,95ghz
Das bedingt einen Wärmestau womit der Idealtakt bei 1,5ghz sein müsste
Am ende hat nvidia die Fertigung komplett für den shrink genutzt und pfeift auf die Effizienz
Etwa 17%
Das lässt sich nur bedingt mit hopper vergleichen da der chip da größer ist 900mm² vs 606mm²
Und beide haben im Vollausbau 144sm
 
schön und die leere stellen auf dem wafer? lässt man die unbedruckt
Was hat das jetzt direkt mit dem Aufbau des Chips zu tun?
Es gibt eine Flächen Yield, d.h. man versucht zu viel Waferfläche wie möglich zu nutzen und wenig Verschnitt zu haben. Das ist richtig, hängt aber von der Anordnung der Chips auf dem Wafer ab.
Und wenn ich soviel wie möglich wertvolle Waferfläche nutzen möchte, dann macht es ja wohl keinen Sinn, 30% der Einheiten zu deaktivieren und totes Silizium mitzuschleppen, bei jedem Chip! Dann hat man genau das Gegenteil erreicht. Daneben gibt es auch eine funktionelle Yield.
Es werden gewisse Transistoren redundant ausgeführt (hab zumindest das erste Mal bei GV100 davon gelesen), aber niemals in der Größenordnung 30%.

Das du weiterhin stur behauptest alle hätten Unrecht macht mich schon sauer, obwohl mir sowas normal am Ass vorbei geht.
Schau dir doch mal die Grafik richtig an. Hier mal in guter Quali. Da ist alles beschriftet. Kannst sogar von Hand durchzählen.

ga102.JPG

Und dazu Seite 10 im Whitepaper, was sagt nV dazu?
The full GA102 GPU contains seven GPCs, 42 TPCs, and 84 SMs
Q: https://images.nvidia.com/aem-dam/e...pere-GA102-GPU-Architecture-Whitepaper-V1.pdf


Das wars jetzt auch von meiner Seite zu dem Thema.
 
@ Vorherige Aussagen zum Verbrauch/ Effizienz.
Tja, die immer wieder kehrende Meinung den Verbrauch zu senken und auf FPS zu verzichten nach dem ich gerade eine neue Karte gekauft habe, ist etwas komisch und verständlich zugleich.
"Wenn", gutes Taktpotentzial vorhanden ist und sie dann noch Stock nach Herstellerangaben läuft, macht das dann Sinn.
Allerdings kenne ich mich mit Amd leider nicht so gut aus, wieviel Potenzial noch übrig bleibt aber ich tippe ähnlich wie bei NVIDIA.

Direkt zum Thema, fällt mir nur ein, dass sich kleinere Fertigungen schlechter kühlen lassen, wie bei den CPU.
Wie klein kann man denn noch fertigen, bis 1nm ?
 
Zuletzt bearbeitet:
Zurück