AMD Radeon Instinct MI100: Details zu Arcturus-GPU durchgesickert

"AMD Radeon Instinct MI100: Details zu Arcturus-GPU durchgesickert"

Durchgesickert...oder aus den Fingern gesogen? :)
 
[...]
Abseits dessen würde ich vermuten, dass entweder die Leistungsableitung vom Namen MI100 -> 100 TOPS INT8 unzutreffend ist oder aber es sich bei der Karte eher noch um eine kleinere/langsamer getaktete Variante handelt, denn die 100 TOPS sind kein bemerkenswerter Wert, insbesondere nicht auf Leistung/Watt bezogen.
Beispielsweise nVidia's Tesla T4 erreicht bereits 130 TOPS INT8 bei nur 70 W (ein beschnittener TU104 mit 40 SMs, also quasi eine modifizierte 2070 Super.).

Hier darf man gespannt sein, was AMDs Design darüber hinaus noch bieten wird.
Bei 128 CUs würde die Namensgebung mit dem bisherigen INT8-Durchsatz bei ~1.5 Ghz übereinstimmen bzw. egal ob es ein paar CUs weniger sind und ein höherer Takt samt TDP, dass Ganze bewegt sich in dem Rahmen.
Denn sonst reiht sich nichts logisch bzw. konsequent ein, was es vielleicht auch nicht tun wird? :ugly:

Wäre z.B. der klassische INT8-Durchsatz deutlich höher, hätte man das Ding hypothetisch auch MI200 oder MI400 nennen können.
Bei der MI60 liegt der INT4 Durchsatz laut AMD bei 118 TOPs, aus irgendwelchen Gründen, sei es experimenteller Support oder sehr geringer Anwendungsbereich, hat AMD das nicht zur Namensgebung verwendet, sondern hat den Leitfaden von der FP16-Leistung zur INT8-Leistung gewechselt.
Würde jetzt der Durchsatz von der MI100 bei beispielsweise 100 FP/BF16 TFLOPs liegen, wäre es auch komisch, wenn AMD bei der Namensgebung wieder einen Sprung auf eine andere Durchsatzform macht.
Wobei hier 100 TFLOPs nach wie vor enttäuschend wären, die T4 leistet dank der Tensor-Cores schon 65 TFLOPs bei 70W und das ist eine 12nm Karte.

Sagen wir mal Arcturus würde in der Hinsicht enttäuschen, dennoch hätte man einen relativ universalen Beschleuniger im Angebot.
32GB-Speicher, über 1TB/s Bandbreite, viel FP64 und FP32-Leistung, MultiGPU-Support über xGMI und halbwegs passabler INT8/4 und BF/FP16-Durchsatz.
Preislich könnte man den Kunden auch zuvorkommen.

Andererseits mit den AGPRs und den neuen Maschineninstruktionen mit großer Matrizenmultiplikation deutet es auf Tensor-Cores mit sehr hohem Durchsatz hin:
def V_MFMA_F32_4X4X1F32 : VOP3Inst<"v_mfma_f32_4x4x1f32", VOPProfileMAI_F32_F32_X4, int_amdgcn_mfma_f32_4x4x1f32>;
def V_MFMA_F32_4X4X4F16 : VOP3Inst<"v_mfma_f32_4x4x4f16", VOPProfileMAI_F32_V4F16_X4, int_amdgcn_mfma_f32_4x4x4f16>;
def V_MFMA_I32_4X4X4I8 : VOP3Inst<"v_mfma_i32_4x4x4i8", VOPProfileMAI_I32_I32_X4, int_amdgcn_mfma_i32_4x4x4i8>;
def V_MFMA_F32_4X4X2BF16 : VOP3Inst<"v_mfma_f32_4x4x2bf16", VOPProfileMAI_F32_V2I16_X4, int_amdgcn_mfma_f32_4x4x2bf16>;
def V_MFMA_F32_16X16X1F32 : VOP3Inst<"v_mfma_f32_16x16x1f32", VOPProfileMAI_F32_F32_X16, int_amdgcn_mfma_f32_16x16x1f32>;
def V_MFMA_F32_16X16X4F32 : VOP3Inst<"v_mfma_f32_16x16x4f32", VOPProfileMAI_F32_F32_X4, int_amdgcn_mfma_f32_16x16x4f32>;
def V_MFMA_F32_16X16X4F16 : VOP3Inst<"v_mfma_f32_16x16x4f16", VOPProfileMAI_F32_V4F16_X16, int_amdgcn_mfma_f32_16x16x4f16>;
def V_MFMA_F32_16X16X16F16 : VOP3Inst<"v_mfma_f32_16x16x16f16", VOPProfileMAI_F32_V4F16_X4, int_amdgcn_mfma_f32_16x16x16f16>;
def V_MFMA_I32_16X16X4I8 : VOP3Inst<"v_mfma_i32_16x16x4i8", VOPProfileMAI_I32_I32_X16, int_amdgcn_mfma_i32_16x16x4i8>;
def V_MFMA_I32_16X16X16I8 : VOP3Inst<"v_mfma_i32_16x16x16i8", VOPProfileMAI_I32_I32_X4, int_amdgcn_mfma_i32_16x16x16i8>;
def V_MFMA_F32_16X16X2BF16 : VOP3Inst<"v_mfma_f32_16x16x2bf16", VOPProfileMAI_F32_V2I16_X16, int_amdgcn_mfma_f32_16x16x2bf16>;
def V_MFMA_F32_16X16X8BF16 : VOP3Inst<"v_mfma_f32_16x16x8bf16", VOPProfileMAI_F32_V2I16_X4, int_amdgcn_mfma_f32_16x16x8bf16>;
def V_MFMA_F32_32X32X1F32 : VOP3Inst<"v_mfma_f32_32x32x1f32", VOPProfileMAI_F32_F32_X32, int_amdgcn_mfma_f32_32x32x1f32>;
def V_MFMA_F32_32X32X2F32 : VOP3Inst<"v_mfma_f32_32x32x2f32", VOPProfileMAI_F32_F32_X16, int_amdgcn_mfma_f32_32x32x2f32>;
def V_MFMA_F32_32X32X4F16 : VOP3Inst<"v_mfma_f32_32x32x4f16", VOPProfileMAI_F32_V4F16_X32, int_amdgcn_mfma_f32_32x32x4f16>;
def V_MFMA_F32_32X32X8F16 : VOP3Inst<"v_mfma_f32_32x32x8f16", VOPProfileMAI_F32_V4F16_X16, int_amdgcn_mfma_f32_32x32x8f16>;
def V_MFMA_I32_32X32X4I8 : VOP3Inst<"v_mfma_i32_32x32x4i8", VOPProfileMAI_I32_I32_X32, int_amdgcn_mfma_i32_32x32x4i8>;
def V_MFMA_I32_32X32X8I8 : VOP3Inst<"v_mfma_i32_32x32x8i8", VOPProfileMAI_I32_I32_X16, int_amdgcn_mfma_i32_32x32x8i8>;
def V_MFMA_F32_32X32X2BF16 : VOP3Inst<"v_mfma_f32_32x32x2bf16", VOPProfileMAI_F32_V2I16_X32, int_amdgcn_mfma_f32_32x32x2bf16>;
def V_MFMA_F32_32X32X4BF16 : VOP3Inst<"v_mfma_f32_32x32x4bf16", VOPProfileMAI_F32_V2I16_X16, int_amdgcn_mfma_f32_32x32x4bf16>;
llvm/VOP3PInstructions.td at master . llvm-mirror/llvm . GitHub

Dabei sollte dann ein deutlich höherer Durchsatz als 100 TeraX herausspringen.
 
Bei 128 CUs würde [...]

Schlussendlich, wie Downsampler schon anmerkte, alles viel Spekulatius. Bei dem Punkt, den du bei mir aufgegriffen hast, ging es lediglich darum, dass die 100 TOPS INT8 viel zu wenig wären, denn damit wäre die Karte für das Inferencing eine Totgeburt. Ich vermute mal, dass die Ableitung Modellname auf INT8-Leistung für Arcturus schlicht nicht zutreffend ist und selbst bei der MI60 (Vega 20, 59 TOPS INT8) ist es schon fraglich, ob das nicht nur ein Zufall war, dass die Zahlenwerte so eng beieinander lagen.

[...]Wobei hier 100 TFLOPs nach wie vor enttäuschend wären, die T4 leistet dank der Tensor-Cores schon 65 TFLOPs bei 70W und das ist eine 12nm Karte. [...]

Wie ich schon schrieb, die Tesla T4 erreicht 130 TOPS INT8. Wäre der Spekulatius hier korrekt würde die AMD-Karte gerade mal etwa 0,45 TOPS/W leisten, während die T4 bereits 1,86 TOPS/W erreicht. Intels NNP-I1000 in schnellster Variante erreicht 1,84 TOPS/W in INT8 (92 TOPS bei 50 W) und den hat Intel nun eingestellt, weil deren Habana-Designs hier voraussichtlich gar noch leistungsfähiger sind (so Goya für das Inferencing). Von daher erscheinen 100 TOPS für das AMD design eher unwahrscheinlich ... aber unterm Strich weitehrin alles nur Gerüchteküche, also abwarten ;-)
 
Schlussendlich, wie Downsampler schon anmerkte, alles viel Spekulatius. Bei dem Punkt, den du bei mir aufgegriffen hast, ging es lediglich darum, dass die 100 TOPS INT8 viel zu wenig wären, denn damit wäre die Karte für das Inferencing eine Totgeburt. Ich vermute mal, dass die Ableitung Modellname auf INT8-Leistung für Arcturus schlicht nicht zutreffend ist und selbst bei der MI60 (Vega 20, 59 TOPS INT8) ist es schon fraglich, ob das nicht nur ein Zufall war, dass die Zahlenwerte so eng beieinander lagen.
Das ist sicher kein Zufall, da alle MI-Karten sich an einer gewissen Durchsatzrate bei der Namensgebung orientiert haben.
Bei der MI25 hieß es von Raja noch eindeutig, dass der Name vom FP16-Durchsatz kommt.
Natürlich könnte es bei Arcturus dennoch jetzt so sein, dass AMD einfach irgendwelche Namen vergibt, ich glaube zwar nicht daran, aber wie du selber sagst, abwarten.

Wie ich schon schrieb, die Tesla T4 erreicht 130 TOPS INT8. Wäre der Spekulatius hier korrekt würde die AMD-Karte gerade mal etwa 0,45 TOPS/W leisten, während die T4 bereits 1,86 TOPS/W erreicht. Intels NNP-I1000 in schnellster Variante erreicht 1,84 TOPS/W in INT8 (92 TOPS bei 50 W) und den hat Intel nun eingestellt, weil deren Habana-Designs hier voraussichtlich gar noch leistungsfähiger sind (so Goya für das Inferencing). Von daher erscheinen 100 TOPS für das AMD design eher unwahrscheinlich ... aber unterm Strich weitehrin alles nur Gerüchteküche, also abwarten ;-)
Eine mögliche Idee ist, dass AMD vierfachen INT8-Durchsatz bei den normalen Shader-Cores wie bisher beibehält, mit größerer Flexibilität, während neue Tensor-Cores für deutlich höheren INT und FP-Durchsatz bei entsprechenden Multiplikationen bringen können, AMD dies aber nicht zur Namensgebung verwendet, warum auch immer.
Ja, mal sehen, ich bin auch gespannt auf die Details.

Bezüglich Nervana vs. Habana hat Intel natürlich eine bessere Transparenz in Bezug auf den potentiellen Kundenkreis und die zukünftigen Roadmaps, aber bei den aktuellen Beschleunigern gefiel David Schor von der Architektur die Nervana-Architektur deutlich mehr, weshalb er relativ verwundert ist, wieso Intel lieber auf eine vermeintlich schlechtere Basis umsteigen möchte:
Intel Axes Nervana Just Two Months After Launch | WikiChip Fuse

Spekuliert wird zu einem, dass Facebook als Großkunde Habana favorisiert hat und man direkt etwas an der Angel hat.
 
Weißt du noch, wo das behauptet wurde? Diese Information ging bisher an mir vorbei - wohl auch, weil sie für Spiele irrelevant ist.
[...]
Ich habe kurz nachgeschaut und es nicht gefunden.
Entweder bei einer Präsentation oder bei einer Fragerunde meinte Raja, dass einem vermutlich auffällt, dass das Namensschema mit den Leistungsdaten der GPUs korreliert und was das für die MI25 zu bedeuten hat.
Raja hat auf Nachfrage auch bestätigt, dass die MI25 keine Dual-GPU sei und es war alllgemein mit 2x Packed Math klar, dass sich der Name auf den FP16-Durchsatz bezieht, während bei den anderen Modellen es noch FP32 war.
MI6 (Polaris10) = 5,7 FP32 TF, MI8 (Fiji) = 8.2 FP32 TF, MI25 (Vega10) = 24.6 FP16 TF, MI50 (Vega20) = 53 INT8 TOPs (26.5 FP16 TFLOPs), MI60 (Vega20) = 59 INT8 TOPs (29.5 FP16 TFLOPs).
MI100 (Arcturus) = ???
 
Anhang anzeigen 1079544

Arcturus hat laut den Treiberpatches keine 3D-Engine bzw. man kann davon ausgehen das Rasterizer/Geometry-Engines und auch ROPs gestutzt worden sind, möglicherweise auch die TMUs.
Es ist eine reine Compute-Karte und keine klassische GPU mehr, welche keine 3D-APIs unterstützen wird und nicht für Gaming verwendet werden kann.
Arcuturs setzt auf die Vega-ISA GFX9 bzw. stellt selber GFX908 dar, Navi bzw. RDNA1 ist GFX101x und RDNA2 GPUs werden vermutlich auf GFX103x basieren.

Arcturus hat noch ein neues Register-Set, welche der Treiber als AGPRs bezeichnet und neue Machine-Learning-Instructions, die aktuell keine andere GPU drauf hat, egal ob GCN oder RDNA.
Sehr custom-built für einen spezifischen Markt.


Half-Rate FP64 wird laut den Treibereinträgen bei Arcturus unterstützt, entsprechend ja zu den 11 TFLOPs bei dem entsprechenden Takt.

Hätte ich jetzt ehrlich gesagt nicht vermutet, dass AMDs GPU Baukasten so flexibel ist bzw man die Resourcen hat/aufwendet einen reinen Compute Chip aufzulegen.
Bin von einer größeren Vega in 7nm ausgegangen - mit deaktuvierten, aber nicht mit weggelassenen Rasterizer und Co
 
Ich hoffe ja, dass die Gerüchte bzgl. Arcturus zutreffen. Es wäre höchste Zeit für AMD, ebenso wie Nvidia zwischen Compute- und Gamingchip zu differenzieren. Es zeigt aber schön die geänderten finanziellen Möglichkeiten von AMD. Wenn man nun RDNA, Arcturus, Renoir und die Zen-Chiplets anguckt, dann ist die Anzahl von spezialisierten bzw. verfeinerten Lösungen deutlich gestiegen. Früher hätte AMD hierzu gar nicht die finanziellen Möglichkeiten gehabt, so viele Architekturen/Chipmatrizen parallel zu fahren und weiter zu entwicklen.
 
Hätte ich jetzt ehrlich gesagt nicht vermutet, dass AMDs GPU Baukasten so flexibel [...]

Mit Flexibilität hat das voraussichtlich eher weniger zu tun, als mit beschränkten Ressourcen und man macht "das Beste", aus dem was man hat. RNDA/Navi wurde primär für die neuen Konsolen (und damit Gaming) entwickelt und eignet sich anscheinend weniger gut für die notwendigen Anpassungen und ist zudem kein HBM-Design.
Allgemein hat AMD hier gar keine Wahl als weiter zu differenzieren, weil sie ansonsten den Anschluss verlieren. Die Anforderungen zwischen regulären GPUs und GPGPUs im Datacenter driften immer weiter auseinander und das kann man nicht mehr sinnvoll mit einem Ein-Design-für-Alles erschlagen; die Zeiten sind vorbei.
Die neuen HPC-Designs werden bspw. bzgl. ML/AI beträchtlich zulegen und derartige Funktionseinheiten in übermäßiger Zahl auf einer Consumer-GPU würde beträchtliche Transistorfläche verschwenden.

Die wesentliche Triebfeder für Tensor Cores v2 auf Turing wahr voraussichtlich eher eine marktstrategische Entscheidung zur Etablierung der eigenen Technik *). nVidia hat derzeit noch einen deutlichen (zeitlichen) Vorteil, den sie sinnvoll auszunutzen versuchen, um die Hardware in Verbindsung mit CUDA und den daran angelehnten ML-Frameworks im Markt zu etablieren, sodass sie auch hier wieder einen kompetetiven Vorteil zu erreichen versuchen.
Ein mitgenommener Nebeneffekt ist natürlich, dass die gestiegene ML-Leistung via Turing auf Titan/Quadro auch die Adaption in der Industrie und Lehre grundsätzlich schneller vorantreibt, aber im Datacenter ist immer noch Volta das primäre Arbeitspferd, das bald durch eine überarbeitete Datacenterarchitektur ersetzt werden wird. Ohne Spezialisierung geht hier nichts mehr und da die Chipfläche immer noch ein beschränkender Faktor ist (und auch bleiben wird), müssen sich die Hersteller sehr gut überlegen, wie sie diese möglichst effizient einsetzen (mit Blick auf den jeweils vorgesehenen Workload).

Abseits dessen kommt auch Marktführer nVidia hier unter Druck durch Fremdhersteller, die über die ML/AI-Schine in den Markt drängen. Spezialisierte Designs wie von Xilinx und bspw. Habana erreichen eine beträchtliche Leistung und drohen im immer noch boomenden ML/AI-Markt nVidia-Karten zu verdrängen, was nVidia mit einem leistungsstärkeren GPGPU-Design zu vermeiden versuchen wird.

Ein geradezu "völlig abgedrehtes" Design ist bspw. die Wafer Scale Engine, ein primär für AI gedachter "Chip", der nahezu die Größe eines Wafers hat und 400.000 Kerne zusammen mit 18 GiB lokalem Speicher auf 46000 mm2 unterbringt. Das Design wird in 16 nm bei TSMC gefertigt und verbraucht um die 15 kW bei voraussichtlich unter 2,5 GHz.


*) Beispielsweise für Consumer gibt es nach wie vor so gut wie keinen sinnvollen Einsatz der Technik und DLSS kann man getrost als Alibi-Funktion verstehen, mit der nVidia den Gamern erklärte, warum sie die zugehörige(n) Technik/Transistoren auf Turing mitbezahlen müssen (insbesondere mit der zusätzlichen Diskussion um vermeintlich höhere Kartenpreise im Nacken). Titel mit entsprechender Unterstützung sind dünn gesäht und AMD hat Mitte 2019 bereits gezeigt, dass ML hierfür nicht zwingend erforderlich ist, denn bestehende AA-Techniken in Verbindung mit Radeon Image Sharpening zeigten ebenfalls sehr gute Qualität und Leistung und diese ist zudem universell einsetzbar, da sie kein spezifisches Training eines NNs erforderlich macht.
Zukünftig kann man mittels ML sicherlich auch einiges im Gaming-Bereich anfangen, aber solange die Hardware für eine entsprechende Leistung nicht breitflächig im Markt verfügbar ist, wird das keinen SW-Hersteller interessieren, weil es die Spielerfahrung "zersplittern" würde.
(Raytracing dagegen ist "nur" ein grafischer Effekt, der keinen nenennswerten Einfluss auf das Gameplay hat, aber wenn bspw. KI oder Physik primär ML-unterstützt berechnet werden und daher hervorragende Resultate auf moderner Hardware zeigen, während Alt-Hardware beispielsweise hakelige oder unrealistische Physik und strohdumme KI und Wegfindung der Mitstreiter und NPC zeigt, wird das Spiel dort unverkaufbar.)
 
Zuletzt bearbeitet:
"dass sich dahinter verschiedene Profi-Grafikkarten verbergen, mutmaßlich als weiterer Vega-Ableger."

Moment als Nachfolger der zu lauten, zu teuren und zu lastaufwendigen Vega 56/64 oder als Nachfolger der V2, die viel zu teuer war und nie wirklich in einem breiten Custommarkt, bzw. Markt generell, ankam?
 
Zurück