Grafikkarte Speicheranbindung

nvidia gibt fp16 an nicht fp32 und spiele rendern in fp32.
Darum der ganze aufwand aus den whitepapern die richtige fo32 alu zu herauszufinden und die Rechen Leistung zu ermitteln theoretisch wären es 96fp32 realistisch sidn es ehr 88fp32
64+16+2*4 der fpu
Der Grund ist aus dem whitepaper von Tesla (g80) zu finden. abschnitt fpu Funktion.
Der andere aus dem whitepaper von ampere /rtx30 ga102 und zuletzt von ada (ad102) wo keine fp32 angaben gemacht werden ergo dieselbe Struktur wie ampere.

Der int32/ fp32 hybrid wird in ampere Dokument aufgeschlüsselt in 32 int32 nativ + 32 fp32/fp16 hybrid mit int32
Daraus ergeben sich 64+16+2*4=88
ich weiß das 64+16=80 mal 2 und danach erst 2*4 addiert werden das aber erkläre ich mir so das die fehlenden 4 Operationen den von den restlichen 16 fp32 zur hälfte laufen also maxed 8 genau ist das nicht definiert und ich nehme dann eben entweder 80+8 oder 80+4+4 also nen viertel der fehlenden 16 fp32 der int32 hybrid dazu.
Am ende kommt dasselbe raus.
Bei meinen Tests rtx3060 vs gtx1060 ergaben maxed + von 88% und ein min von 72% wegen eines cpu limits. Das deckt sich mit meiner Rechnung.
So gesehen ist das im groben die fp32 Leistung der ampere sowie ada gen daher sind beide auch direkt vergleichbar. Egal welche tf Metrik man nimmt die zahlen sind dann aber nicht vergleichbar mit älteren gpu serien wie turing (rtx20) oder bspw pascal (gtx10) die die fpu nicht aktiv haben.
Das hybrid design kommt von Turing wurde aber nicht direkt im Treiber aktiviert und musste in den Spiele engines explizit angesprochen werden. Über dx12 Befehl. Was wie man sich denken kann kaum einer getan hat.
Darum die hardware Lösung mit ampere und ada ist quasi ampere auf Stereoiden durch mehr Takt.

Was den L2 cache angeht dieser ist explizit für den RT core und dem neuen SAR feature gedacht. Sorgt also nur für bessere dxr Leistung durch geringeren cpu limit.
Das ändert nix am SI und dessen zu kleiner Bandbreite für die gpu ab 1440p
 
Zurück