Spielst Du auf die Tensor-Cores an?
Die Instruction-Set-Architecture ist bei Volta neu, anderes Encoding-Schema, andere Instruktions-Latenzen, dass Cache-System ist stark verändert worden, neben erweiterten Funktionen vom SM, wie eigenständige INT und FP-Ports, für gleichzeitige Ausführung und und und.
https://arxiv.org/pdf/1804.06826.pdf
Nvidia hat aber jedes mal deutlich die SMs modifiziert.
Fermi hat an der ISA an mehreren Stellen geschraubt, zum ersten mal gab es allgemeine read/write-caches und allgemein hat Nvidia soviel geändert.
Kepler war darauf folgend auch deutlich anders aufgebaut , da hat Nvidia auch schon an der ISA, den Latenzen (9 vs. ~20 Takte), dem Taktdesign (Kein Hotclock mehr) und dem Cache-System (andere Caches zusammengelegt) geschraubt, neben der Tatsache das ein SM über 192 FP32-Einheiten verfügt hat und nicht 32.
Bei Maxwell erneut, der ist deutlich anders aufgebaut, als Kepler, 128 FP32-Einheiten pro SM, wieder andere Cache-Struktur, ISA-Tweaks, geringere Ausführungslatenzen bei den Hauptoperationen, von 9 Takten auf 6.
Bei Pascal gab es primär nur einen Shrink (+ein paar Verbesserungen und mehr als nur ein Shrink bei GP100), Volta und Turing führen dagegen wieder eine neue Basis ein.
Das stellt einen starken Kontrast gegenüber AMD dar, welche seit GCN1 relativ wenig an den Compute-Units geändert haben.
Immer 64 ALUs, immer 256KB Register-Space, immer 64KB LDS-Speicher, mehrheitlich die gleichen Instruction-Latencies und generell der ganze Aufbau.
Einige Tweaks gab es, native FP16, INT8/16 ops, Cross-Lane-Operations wurden anders ab GCN3 implementiert, ein paar Änderungen bei der Scalar-Unit, ab GCN4 gibt es Instruction-Prefetching.
Aber im Großen und Ganzen ist das deutlich weniger, als die Axt die Nvidia fast jede Generation geschwungen hat.