@Prozessorarchitektur: Deine beiden Postings strotzen nur so vor Falschaussagen und unzulässigen Ableitungsversuchen weil nicht mal deine Basisinformationen korrekt sind und als du von Vorpostern auf vereinzelte, offensichtliche Fehler hingewiesen wirst, argumentierst du dennoch mit den Falschinformationen weiter. Ist das nur Sturheit oder was anderes?
Ampere ist mittlerweile rund 2 Jahre alt und nahezu jede Seite schafft es die Specs halbwegs korrekt wiederzugeben, nur du nicht und du versuchst dann tatsächlich auch noch irgendwas abzuleiten?
Anstatt bunte Bildchen zu posten, solltest du mal eher die zugehörigen Texte lesen und verstehen lernen, denn dann würde sich so mancher von dir behaupteter Unsinn erübrigen.
Nachfolgend mal eine Zusammenfassung bzw. Korrektur:
> "
ga102 nur chip 315w 84sm aktiv von 120sm"
Der GA102 hat insgesamt 84 SMs, was den Vollausbau darstellt, organisiert in 7 GPCs, sieht man auch unmittelbar im Die-Shot und darauf wurdest du auch schon von DARPA hingewiesen (und hast es später erneut ignoriert).
> "
ein SM 12alu"
Wenn "alu" nicht gerade ein kompletter Tippfehler ist, ist die Aussage derart falsch, dass man sie schon fast nicht mehr kommentieren kann, da man nicht weiß, was du dir da Krummes ausgedacht hast aber das hat mal gesichert nichts mit irgendwelchen Specs von nVidia-GPUs zu tun.
> "
ja ampere hat ein drittel des chips deaktiviert"
Eine vollkommen blödsinnige Verallgemeinerung, da "Ampere" die komplette Architektur bezeichnet, die es in zwei grundsätzlich unterschiedlichen Ausprägungen gibt (GA100 und die kleineren Consumer-Chips), die sich dann auf mehrere Chips aufteilen, auf denen wiederum komplett unterschiedliche Produkte realisiert werden.
Als konkrete Beispiele: Auf der 3090 Ti und der schon seit langem verkauften A6000 ist nichts deaktiviert, da hier der Chip im Vollausbau genutzt wird. Der GA100 hat nur 16 % seiner SMs deaktiviert, bspw. die 3080 nur 19 %, die 3070 hat gerade mal 4 % deaktiviert und die 3070 Ti ist bereits wieder der Vollausbau des GA104, alles Zahlenwerte, die weit entfernt von (d)einem Drittel sind.
> "
628/120=5,23mm² pro sm" (stellvertretend)
So eine Rechnung ist absurder Blödsinn (vollkommen unabhängig von dem falschen Zahlenwert "120"), bzw. offensichtlich verstehst du die von dir geposteten, bunten Bildchen nicht. Du solltest noch mal einen genaueren Blick auf den annotierten Die-Shot werfen, denn dann würde dir aufgehen, dass die SMs bereits nur einen Teil der Chipfläche ausmachen und Ableitungen in Richtung Lovelace mit dessen nur skizzenhaft bekannten Änderungen sind noch problematischer.
Damit du aber nicht noch länger hilflos auf diese grellen Bildchen blicken musst hier die Auflösung: Beim GA102 machen die SMs gerade mal 49 % der Chipfläche aus (vorausgesetzt die Die-Shots sind nicht nennenswert verzerrt abgebildet).
Ableitungen in Richtung Lovelace sind bisher reiner Spekulatius, da man nicht weiß was nVidia mit seinen Tensor Cores macht, die noch mehr Funktionalität hinzugewonnen haben in der letzten Iteration, man weiß nicht was sie mit ihren RT Cores machen, die angeblich überproportional an Leistung hinzugewinnen sollen, man weiß nicht wie sich das Display/Media-Backend dazu verhält und ebenso der deutlich größer werden L2$.
> "
Ga100 144sm aktiv 128
ga102 120sm 84 aktiv
ga103 96sm 48 akriv
ga104 72sm derzeit 46 aktiv (nur notebooks)
ga106 48sm 28 aktiv
ga104 24sm 20 aktiv"
Diese Auflistung ist ausgegorener Sch******, denn hier ist nahezu alles falsch! Allgemein macht die Aussage bzgl. aktiver SMs in dieser Form wenig Sinn, da diese von Produkt zu Produkt variieren. Nachfolgend mal einige Auszüge:
GA100: 128 SMs insgesamt, 108 aktiv auf der A100 als SXM4 mit 40 oder 80 GiB HBM2
GA102: 84 SMs insgesamt, dieser Vollausbau findet sich auf der A6000, der A40 und der 3090 Ti
GA104: 48 SMs insgesamt, als Vollausbau in Form der 3070 Ti, die reguläre 3070 hat immer noch 46 SMs
[...]
> "
Udn wie bite sol man ungerade sm auf dem chip realisieren"
nVidia kann SMs relativ frei auf dem Chip deaktivieren. Im worst case können sie in Ampere eine TPC nicht mit nur einer SM betreiben und müssen die komplette TPC (= 2 SMs) deaktivieren, aber das weiß ich nicht im Detail.
> "
Hier markt man einfach das smsung yield extrem schlecht sind und erst ein 150m² chip so gerde mal die beste ausbeute hat"
"
Man merkt das der chip ursprünglich für 7nm designt wurde"
Interessant wie du anhand dieser (Falsch)Informationen einen schlechten Yield ableiten willst oder dass da was für 7nm designt wurde. Bei dem was du in deinen beiden Postings von dir gegeben hast, bis du sicher der letzte der was "merkt".
> "
30 und 84sm gehen technisch nicht"
Wo zauberst du nur so einen Unsinn her? 84 SMs ist der Vollausbau des GA102, wie oft denn noch und das obwohl du schon zuvor von DARPA darauf hingewiesen wurdest. 2 SMs pro TCP, 6 TPCs pro GPC und 7 GPCs im GA102, ergibt 84 SMs.
Und auch an den 30 SMs ist nichts Magisches. Das ist schlicht der Vollausbau des GA106. (Die 3060 nutzt davon 28, die 3060 Ti wird auf dem GA104 mit 38 aktiven SMs realisiert.)
> "
Mir ist nicht bekannt das man chips mittlerweile Asymmetrisch schneiden kann"
Und gleich der nächste Unsinn. Was hat die Chipfläche mit dem logischen Design darauf zu tun? Selbstredend wird ein Hersteller versuchen beides möglichst nahe übereinanderzulegen, aber auch auf Chips gibt es totes Silizium. Sollte dir bei deinem Foren-Namen eigentlich bekannt sein, wenn der nicht nur heiße Luft sein soll. Hier als Gegenthese "kein asymetrisches Schneiden" zu konstruieren ist vollkommen abwegig und überflüssig.
> "
Es ist aber unlogisch wo sind die fp64 wovon nur 24 aktive sind?" (zum GA102-SM)
Anscheinend schaust du dir nur bunte Bildchen an und liest keine Texte. Die nur zur Kompatibilität vorhandenen FP64-Einheiten sind in dem Blockdiagramm des SMs gar nicht abgebildet.
Aus deiner Leseschwäche resultieren dann aber auch natürlicherweise wieder die erneut komplett falschen Zahlen, denn Ampere nutzt in den Samsung-Chips 2 FP64-Einheite pro SM und damit insgesamt 168 FP64-Einheiten auf dem GA102. Auf bspw. der 3090 sind damit gerade mal indirekt vier FP64-Einheiten deaktiviert und auf der 3080 damit indirekt 32 FP64-Einheiten (weil nur 68 SMs).
> "
ist was verwirrend" ... "
rechts Grau neben dem fp32+int32 ist deaktiviert" (zum Die-Shot)
Nein, da ist nichts verwirrend, nur verstehst du nicht was da farblich marktiert wurde und der graue Bereich (SMs) rechts ist nicht "deaktiviert", sondern einfach nicht farblich aufgeteilt worden, da alle wesentlichen Segmentierungen bereits links daneben hervorgehoben wurden.
> "
Hier klärt sich das auf in a100 Dokument"
Nein, da klärt sich bei dir gesichert nichts, weil du nicht verstehst, dass der (G)A100 architektonisch anders aufgebaut bzw. zusammengesetzt ist. Der Datacenter-Chip zielt auf einen gänzlich anderen Markt ab und muss das auch in seinem Design reflektieren. Den hier mit den Consumer-Chips in einer Betrachtung zusammenzuwerfen ist nur bedingt hilfreich bzw. hat dich anscheinend durchweg zu falschen Schlüssen verleitet.
> "
Das ergibt dann 32fp64 und 64fp32 =96fp32 wäre da nicht das nvidia hier 8 fp64 deaktiviert hat. Womit wir bei 88 fp32 Operationen sind pro SM." (nach/zum (G)A100)
Erneut wieder falsche Zahlen und wie kommst du auf den Unsinn hier FP32- und FP64-Einheiten für FP32-Operationen zusammenzurechnen?
Die Zahlen sind übrigens kompletter Blödsinn, selbst wenn du die nicht auf den (G)A100 sondern bspw., auf den GA102 bezogen hättest. Aber um dir weitere Kopfschmerzen zu ersparen:
(G)A100: 32 FP64-Ops pro SM und Takt = 64 Flops pro SM und Takt in FP64, sowie die doppelten Ops/Flops für FP32, was schlicht an der doppelten Zahl der FP32-Einheiten liegt. Und nVidia deaktiviert keine einzelnen (FP64-)Einheiten in einem SM. Wenn dann wird der komplette SM stillgelegt, es gibt keine Kartenmodelle/Chips mit bspw. 40,7 SMs.
GA102: 2 FP64-Ops pro SM und Takt = 4 Flops pro SM und Takt, sowie als Peak-FP32-Performance 128 Ops bzw. 256 Flops pro SM und Takt, was zu den rd. 36 TFlops Peak-FP32 der 3090 führt. Die nur zu Kompatibilitätszwecken vorhandenen FP64-Einheiten führen in der Form auch zu dem bekannten 1/64stel FP64-Durchsatz ggü. FP32, das man derzeit beim Consumer-Ampere beobachtet.
> "
Lovelace könnte das beibehalten und darauf beruhe die Berechnungen meinerseits ältere noch mit 96 fp32"
Deine sogenannten "Berechnungen" sind für die Tonne, weil deine "96" komplett falsch ist. Darüber hinaus wird schon seit längerem angenommen, dass sich der grundlegende SM-Aufbau bei Lovelace nicht übermäßig ändern wird. Da könntest du genausogut überflüssigerweise orakeln, dass morgen auch wieder die Sonne aufgehen wird.
> "
Da mir das mit den deaktivierten fp64 erst kürzlich aufgefallen ist"
Da du nicht einmal verstanden hast, was hier bei FP64 der Sachstand ist, ist dir da offensichtlich auch nichts aufgefallen. Bei den Consumer-Chips ist da nichts in besonderem Maße deaktiviert, die haben alle schlicht 2 FP64-Einheite pro SM und der (G)A100 hat 32 pro SM. Und wie schon zuvor erklärt haben diese beiden Ausprägungen der Ampere-Architektur in diesem Kontext relativ wenig miteinander zu tun.
> "
Hier erklären sich auch meine Testergebnisse wo ich nur 74% schneller war als meine alte gpu
gtx1060 etwa 4,9tf"
Aufgrund dem Unsinn, den du zuvor geschrieben hast, erklärt sich da ganz sicher nichts bei dir, auch wenn du den Eindruck hast, hier irgend eine Art Erkenntnis gewonnen zu haben.

Bereits bei den Basics hast du es nicht verstanden und von den zwei unterschiedlichen Datenpfaden in den Consumer-ALUs in Ampere und der Aufteilung zwischen FP32 und INT32 will ich da nicht einmal anfangen, bevor ich doch noch kompett verwirre.
Schuster, bleib' bei deinen Leisten.