Nun wie komme ich auf meine zahlen und erklärungen
Erfunden ist davon nix viel angenommen stimmt aber die basis sind die nvidia whtiepaper und die muss man leider querlesen
Alles fängt mit tesla g80 (geforce 8000 /9000 gtx200) an von 2006.
Die basis wie die Architektur funktioniert das hat sich seitdem nicht geändert nur das wie wurde immer angepasst.
Basis ist eine fp32 Architektur die Zusatz Einheiten mit int32 fp16 und doppelte Präzession fp64 kann
Angefangen hat das mit der sm struktur
8 fp32 +8 int32+ 2 fpu tmu
Diese wurden in mehreren tpc (2 sm) an die rop gebunden .
Die tmu und rop laufen mit coreclock
Die alu allerdings in doppelter coreclock
Die Formel ist (alu*2+ fpu*4)* gpu Takt= glops zu damaliger zeit.
Abgekürzt ist das alu *3 *Gpu Takt*2 = gflops
Ursache dafür die fpu kann 4 fp32 aufgaben berechnen und hat dedizierte Datenpfade dafür und da das Verhältnis 1-4 ist wird daraus eben mal 3
An fermi hat nvidia eine neue aufteilung der alu statt tpc sind es nun gpc die einen grafikengine entsprechen
Das ist nur für den sheduler der gpu interessant für uns nur als Formel relevant
fermi (gtx400/500)hatte
32 fp32 +32 int32 +4fpu
Formel daraus ist 32*sm count*2+4*sm count*4/1000 = tflops
Kepler (gtx600/700) hatte diese dann deutlich aufgebohrt mit 192 fp32+192int32 +32 fpu
Formel ist 192*sm count +32 fpu *4 *sm count/1000
Dann kam es zu eine drastischen Anpassung der Architektur
maxwell (gtx900) hat alle fpu deaktiviert für fp32 das sparte Strom seitdem sind auch fp64 Einheiten dediziert verbaut die deutlich weniger Strom benötigen.
Maxwell hat 128fp32 +128int32 *sm count *2 = tflops
pascal (gtx10)war quasi ein shrink der architektur auf 16nm und somit nur Takt Bonus
Hier gilt die Formel alu mal 2 mal Takt
Turing (rtx20) wurde wieder die Architektur grundlegen geändert
neu waren
rt core für bvh Strahlen die machen nix anderes als Strahlen zu berechnen
tensor core für denoising das wird bis heute nicht in Echtzeit genutzt
Und der Rest ist 1-.1 identisch das sm wurde auf 64 fp32+ 64 int32 reduziert diese sind aber hybrid und können bei direkten Befehl aus dx12 bzw vulkan fp32 berechnen
Das ergibt die Formel wie bei pascal mit Anmerkung das mehr perf raus kommen kann wenn dx12/vulkan verwendet wird.
Ampere (rtx30) hier wurde wieder die arch angepasst und das hybrid in hardware erzwungen
Es sind immer noch 64 fp32 + 64 int32 die in 32 hybrid und in 32 int32 dediziert aufgeteilt sind
16 von den hybrid rechnen immer fp32 in dx12 und vulkan dazu kommen 8-16 fp32 vom Treiber
8fp32 sind quasi garantiert selbst in dx9 dx10 dx11 opengl darum rechne ich immer 88*sm count mal Takt mal 2
ada ist ampere auf Steroiden da mehr Takt und eine anpassen des rt core und zwei neue software features
Einmal sar und einmal frame generation beides braucht zwingend cache der mit ada deutlich aufgebohrt wurde von 2mb auf 32mb
Cache lässt sich nicht schrinken daher war diese Änderung essentiell für sar da ansonsten die Idee dxr mittels out of order auszuführen nicht geht.
Gpu sind linear und sar funktioniert nur mit FG da min ein frame zeit braucht um die Renderaufgabe zu ordnen
Das warum ist klar man will mit FG und höheren Takt quasi kleinere chips teurer verkaufen. da die Herstellung von dichteren chips den Takt limitiert und die chipfläche nicht kleiner wird.
Mit aktuellen design könnte man in n3 noch 25% chipfläche sparen also wäre die sku nur bei Takt schneller sofern identische Ausbaustufen.
In n4x könnte man den Takt auf 3,1ghz prügeln und hätte nur leicht größere chips. Der wafer ist aber deutlich billiger.
In n3 wäre die chips sogar noch billiger da diese kleiner sind min 25% eher sogar 30% und man käme auf 3,2ghz Takt.
Wird nvidia die arch ändern? Möglich ist es, aber sie müssen es nicht
Erst in n2x mit deutlichen Takt plus (+25%) lohnt sich ein rebuild der Architektur
Die Dokumente verlinke ich mal da steht auch viel marketing Blödsinn dabei
Das ehrlichste ist noch das antike tesla Dokument
maxwel
gibt es sogar keins
pascal und turing gibt es aber ada und ampere nur die Profi Ableger die nur teilweise mit den gaming chips identisch sind sm Struktur ist aber leicht reduziert.
bsp in ga100 steht 64 fp64 +32 fp64 die sind in ga102 aber nur noch 24 fp64
das marketing Dokument ga102 habe ich mal auch verlinkt. Darin steht abe wie das mit den doppelten fp32 funktionieren soll. Was in ga100 Dokument nicht erwähnt wird. Ganz ehrlich ist das nicht aber beides zusammen gibt ein Bild wie .
tesla g80
Fermi gf100
Kepler gk110
Maxwell gm200
pascal gp100
turing tu 102
ampere ga100 ga102
Ada lovelace ad102
Das sind details
ne gpu kann aber auch am backend also rop limitieren sowie an der Bandbreite
Die variable sind die Spiele.