G
Gast1728637801
Guest
"AMD Radeon Instinct MI100: Details zu Arcturus-GPU durchgesickert"
Durchgesickert...oder aus den Fingern gesogen?
Durchgesickert...oder aus den Fingern gesogen?


Bei 128 CUs würde die Namensgebung mit dem bisherigen INT8-Durchsatz bei ~1.5 Ghz übereinstimmen bzw. egal ob es ein paar CUs weniger sind und ein höherer Takt samt TDP, dass Ganze bewegt sich in dem Rahmen.[...]
Abseits dessen würde ich vermuten, dass entweder die Leistungsableitung vom Namen MI100 -> 100 TOPS INT8 unzutreffend ist oder aber es sich bei der Karte eher noch um eine kleinere/langsamer getaktete Variante handelt, denn die 100 TOPS sind kein bemerkenswerter Wert, insbesondere nicht auf Leistung/Watt bezogen.
Beispielsweise nVidia's Tesla T4 erreicht bereits 130 TOPS INT8 bei nur 70 W (ein beschnittener TU104 mit 40 SMs, also quasi eine modifizierte 2070 Super.).
Hier darf man gespannt sein, was AMDs Design darüber hinaus noch bieten wird.

llvm/VOP3PInstructions.td at master . llvm-mirror/llvm . GitHubdef V_MFMA_F32_4X4X1F32 : VOP3Inst<"v_mfma_f32_4x4x1f32", VOPProfileMAI_F32_F32_X4, int_amdgcn_mfma_f32_4x4x1f32>;
def V_MFMA_F32_4X4X4F16 : VOP3Inst<"v_mfma_f32_4x4x4f16", VOPProfileMAI_F32_V4F16_X4, int_amdgcn_mfma_f32_4x4x4f16>;
def V_MFMA_I32_4X4X4I8 : VOP3Inst<"v_mfma_i32_4x4x4i8", VOPProfileMAI_I32_I32_X4, int_amdgcn_mfma_i32_4x4x4i8>;
def V_MFMA_F32_4X4X2BF16 : VOP3Inst<"v_mfma_f32_4x4x2bf16", VOPProfileMAI_F32_V2I16_X4, int_amdgcn_mfma_f32_4x4x2bf16>;
def V_MFMA_F32_16X16X1F32 : VOP3Inst<"v_mfma_f32_16x16x1f32", VOPProfileMAI_F32_F32_X16, int_amdgcn_mfma_f32_16x16x1f32>;
def V_MFMA_F32_16X16X4F32 : VOP3Inst<"v_mfma_f32_16x16x4f32", VOPProfileMAI_F32_F32_X4, int_amdgcn_mfma_f32_16x16x4f32>;
def V_MFMA_F32_16X16X4F16 : VOP3Inst<"v_mfma_f32_16x16x4f16", VOPProfileMAI_F32_V4F16_X16, int_amdgcn_mfma_f32_16x16x4f16>;
def V_MFMA_F32_16X16X16F16 : VOP3Inst<"v_mfma_f32_16x16x16f16", VOPProfileMAI_F32_V4F16_X4, int_amdgcn_mfma_f32_16x16x16f16>;
def V_MFMA_I32_16X16X4I8 : VOP3Inst<"v_mfma_i32_16x16x4i8", VOPProfileMAI_I32_I32_X16, int_amdgcn_mfma_i32_16x16x4i8>;
def V_MFMA_I32_16X16X16I8 : VOP3Inst<"v_mfma_i32_16x16x16i8", VOPProfileMAI_I32_I32_X4, int_amdgcn_mfma_i32_16x16x16i8>;
def V_MFMA_F32_16X16X2BF16 : VOP3Inst<"v_mfma_f32_16x16x2bf16", VOPProfileMAI_F32_V2I16_X16, int_amdgcn_mfma_f32_16x16x2bf16>;
def V_MFMA_F32_16X16X8BF16 : VOP3Inst<"v_mfma_f32_16x16x8bf16", VOPProfileMAI_F32_V2I16_X4, int_amdgcn_mfma_f32_16x16x8bf16>;
def V_MFMA_F32_32X32X1F32 : VOP3Inst<"v_mfma_f32_32x32x1f32", VOPProfileMAI_F32_F32_X32, int_amdgcn_mfma_f32_32x32x1f32>;
def V_MFMA_F32_32X32X2F32 : VOP3Inst<"v_mfma_f32_32x32x2f32", VOPProfileMAI_F32_F32_X16, int_amdgcn_mfma_f32_32x32x2f32>;
def V_MFMA_F32_32X32X4F16 : VOP3Inst<"v_mfma_f32_32x32x4f16", VOPProfileMAI_F32_V4F16_X32, int_amdgcn_mfma_f32_32x32x4f16>;
def V_MFMA_F32_32X32X8F16 : VOP3Inst<"v_mfma_f32_32x32x8f16", VOPProfileMAI_F32_V4F16_X16, int_amdgcn_mfma_f32_32x32x8f16>;
def V_MFMA_I32_32X32X4I8 : VOP3Inst<"v_mfma_i32_32x32x4i8", VOPProfileMAI_I32_I32_X32, int_amdgcn_mfma_i32_32x32x4i8>;
def V_MFMA_I32_32X32X8I8 : VOP3Inst<"v_mfma_i32_32x32x8i8", VOPProfileMAI_I32_I32_X16, int_amdgcn_mfma_i32_32x32x8i8>;
def V_MFMA_F32_32X32X2BF16 : VOP3Inst<"v_mfma_f32_32x32x2bf16", VOPProfileMAI_F32_V2I16_X32, int_amdgcn_mfma_f32_32x32x2bf16>;
def V_MFMA_F32_32X32X4BF16 : VOP3Inst<"v_mfma_f32_32x32x4bf16", VOPProfileMAI_F32_V2I16_X16, int_amdgcn_mfma_f32_32x32x4bf16>;
Du kennst also eine GFX1011/1012 als 5500XT die 16GB VRAM hat, o.k.. Vielleicht überlegt ihr mal wie man das bewerkstelligen könnte? Ist ja nicht so schwer oder?Was kommst du jetzt mit gfx1011/1012.
GCN5...Andererseits könnte es ja auch so sein, dass Arcturus noch auf Navi basiert
Naja, bei mir sind 50+50=100.Komisch, es wurde doch hier immer behauptet, mit GCN wären nur maximal 64 CUs möglich....
Bei 128 CUs würde [...]
[...]Wobei hier 100 TFLOPs nach wie vor enttäuschend wären, die T4 leistet dank der Tensor-Cores schon 65 TFLOPs bei 70W und das ist eine 12nm Karte. [...]

Das ist sicher kein Zufall, da alle MI-Karten sich an einer gewissen Durchsatzrate bei der Namensgebung orientiert haben.Schlussendlich, wie Downsampler schon anmerkte, alles viel Spekulatius. Bei dem Punkt, den du bei mir aufgegriffen hast, ging es lediglich darum, dass die 100 TOPS INT8 viel zu wenig wären, denn damit wäre die Karte für das Inferencing eine Totgeburt. Ich vermute mal, dass die Ableitung Modellname auf INT8-Leistung für Arcturus schlicht nicht zutreffend ist und selbst bei der MI60 (Vega 20, 59 TOPS INT8) ist es schon fraglich, ob das nicht nur ein Zufall war, dass die Zahlenwerte so eng beieinander lagen.
Eine mögliche Idee ist, dass AMD vierfachen INT8-Durchsatz bei den normalen Shader-Cores wie bisher beibehält, mit größerer Flexibilität, während neue Tensor-Cores für deutlich höheren INT und FP-Durchsatz bei entsprechenden Multiplikationen bringen können, AMD dies aber nicht zur Namensgebung verwendet, warum auch immer.Wie ich schon schrieb, die Tesla T4 erreicht 130 TOPS INT8. Wäre der Spekulatius hier korrekt würde die AMD-Karte gerade mal etwa 0,45 TOPS/W leisten, während die T4 bereits 1,86 TOPS/W erreicht. Intels NNP-I1000 in schnellster Variante erreicht 1,84 TOPS/W in INT8 (92 TOPS bei 50 W) und den hat Intel nun eingestellt, weil deren Habana-Designs hier voraussichtlich gar noch leistungsfähiger sind (so Goya für das Inferencing). Von daher erscheinen 100 TOPS für das AMD design eher unwahrscheinlich ... aber unterm Strich weitehrin alles nur Gerüchteküche, also abwarten![]()
Bei der MI25 hieß es von Raja noch eindeutig, dass der Name vom FP16-Durchsatz kommt.
Ich habe kurz nachgeschaut und es nicht gefunden.Weißt du noch, wo das behauptet wurde? Diese Information ging bisher an mir vorbei - wohl auch, weil sie für Spiele irrelevant ist.
[...]
Anhang anzeigen 1079544
Arcturus hat laut den Treiberpatches keine 3D-Engine bzw. man kann davon ausgehen das Rasterizer/Geometry-Engines und auch ROPs gestutzt worden sind, möglicherweise auch die TMUs.
Es ist eine reine Compute-Karte und keine klassische GPU mehr, welche keine 3D-APIs unterstützen wird und nicht für Gaming verwendet werden kann.
Arcuturs setzt auf die Vega-ISA GFX9 bzw. stellt selber GFX908 dar, Navi bzw. RDNA1 ist GFX101x und RDNA2 GPUs werden vermutlich auf GFX103x basieren.
Arcturus hat noch ein neues Register-Set, welche der Treiber als AGPRs bezeichnet und neue Machine-Learning-Instructions, die aktuell keine andere GPU drauf hat, egal ob GCN oder RDNA.
Sehr custom-built für einen spezifischen Markt.
Half-Rate FP64 wird laut den Treibereinträgen bei Arcturus unterstützt, entsprechend ja zu den 11 TFLOPs bei dem entsprechenden Takt.
Hätte ich jetzt ehrlich gesagt nicht vermutet, dass AMDs GPU Baukasten so flexibel [...]