Richtig lesen will gelernt sein, aber wundert mich jetzt ehrlich gesagt auch mal wieder weniger, dass intel mal wieder in den Himmel gelobt wird.
Es steht die Aussage von intel im Raum, dass sie 45 Tflops bei FP32 schaffen und das habe ich mit der Mi100 verglichen, da die Mi200 ja angeblich aus zweich Chiplets bestehen soll und man die Leistung schon mit zwei mal Mi100 übertreffen würde, nicht mehr und nicht weniger.
Andere Vergleichswerte hab ich leider keine gefunden, sonst hätte man die im Vergleich zur bestehenden Konkurrenz einordnen können, nur da man nicht weiß, was die neuen leisten werden, fraglich.
Aber da intel selbst den Wert bei FP32 angibt und du das Design ja so abfeierst, finde ich das ehrlich gesagt etwas enttäuschend und bin gespannt, welcher der drei Ableger in welchem Bereich vorne sein wird.
Die "> 45 TFlops" beziehen sich gerade mal auf ein A0-Sample, d. h. das wird offensichtlich noch
etwas mehr werden. Weitaus Wesentlicher ist jedoch, dass das Design FP32 nur als eine Art Kompatibilitätsmodus implementiert und dies voraussichtlich über die FP64-Einheiten mitberechnet wird, denn in dem Design haben FP32 und FP64 ein 1:1 Durchsatzverhältnis, d. h. die Aussage "> 45 TFlops" gilt auch gleichermaßen für den FP64-Durchsatz, d. h. bereits der für das A0-Sample geteaserte Wert ist bereits viermal so hoch wie bei der MI100.
Nimmt man "nur" 45,0 TFlops als FP32-Messergebnis des A0-Samples an und ignoriert das Größer-Zeichen und nimmt die Durchsatzwerte der Architektur von Sheet 170, dann erhält man folgende Leistungswerte:
Ponte Vecchio A0-Sample , rd. 1,37 GHz
- FP64 & FP32 = 45,0 TFlops (per Definition)
- BF16 ~ 720 TFlops
- INT8 ~ 1440 TOPS (bzw. 1,4 PetaOps)
Zum Vergleich die MI100:
- FP32 = 23,1 TFlops
- FP64 = 11,5 TFlops
- BF16 = 92,3 TFlops
- INT8 = 184,6 TOPS
Mit einer einfachen Verdoppelung bei CDNA2 käme AMD also nicht allzu weit. Hier muss architektonisch noch was drauf und idealerweise würde man gleich auch noch den N5 nutzen.
Für ein vollständiges Bild noch ein Blick auf den ursprünglich veröffentlichten A100 mit 108 SMs und 40 GiB:
- FP32 = 19,5 TFlops
- FP64 = 9,7+ TFlops *)
- BF16 = 312 TFlops
- INT8 = 624 TOPS
*) Das "+" resultiert hier daraus, dass die Tensor Cores v3 ebenso über FP64-MMA-Funktionalität verfügen und im Peak bis zu 19,5 TFlops in FP64 erreichen. Die Leistung wird man zweifellos nie vollumfänglich in einen Algorithmus einbauen können, aber nVidia's Libs sind darauf ausgelegt die Tensor Cores wenn möglich auch für FP64 zu nutzen, so dass man im Idealfall den Basis-Peakwert von 9,7 TFlops noch erweitern kann.
Und nein, wenig verwunderlich ist einzig, dass du wieder der Meinung bist, dass hier ein x-beliebiger Konkurrent deines Lieblingsbrands in den Himmel gelobt wird. Das ist schlicht symptomatisch für dich, dass du überall Feindbilder siehst. Das hier ist nichts weiter als die Wiedergabe der Leistungswerte, soweit bekannt, geteasert und kolportiert, nicht mehr und nicht weniger.
Ach gut, dass du das ohne Offenlegung der Daten schon weißt, das die Xe natürlich in allen Belangen überlegen sein wird, aber wen wundert das eigentlich noch.
Fakt ist zur Mi200 wissen wir nur, dass sie aus 2 Chiplets besteht. Was diese für Änderungen erfahren haben und welche Leistung sie bringen wissen wir nicht. Aber gut, dass du dann schon mal daraus ableiten kannst, dass das nichts wird.
Ich sehe ehrlich gesagt nicht, dass die Xe ihren Konkurrenten deutlich überlegen sein wird, sondern, dass wie in der Vergangenheit auch, wohl jeder seinen Anwendungsfall haben wird, wo er besser und schlechter wie die Konkurrenz ist und es sich die Waage halten wird.
Aber die Entscheidungsträger von Frontier waren bestimmt nur Deppen und haben sich für das deutlich unterlegene Design entschieden.
Lol, und du meinst, du bist da in diesem Sinne auch nur einen Deut besser, wo du doch anscheined mit absoluter Gewissheit zu wissen scheinst, dass diese Annahe falsch ist? Ach muss das schön sein, zu wissen, dass man immer Recht hat.
Soweit man es zur MI200 weiß, wird sich das leistungstechnisch grob verdoppelt zzgl. architektonischer Verbesserungen. Weiterhin "weiß" man gemäß bisheriger Leaks, dass sich an der relativen AI-Leistung im Design anscheinend nicht allzu viel ändern wird, d. h. man wird es vermutlich selbst schwer haben bzgl. nVidia's A100 in diesem Bereich (der architektonische FP16-Durchsatz soll angeblich unverändert bleiben, einzig das BF16 scheint man nun von 1/2 auf 1, sprich auf ein 1:1-Verhältnis anzuheben.).
Und schon wieder muss man sich fragen, warum du es für notwendig erachtest unbeteiligte Dritte zu beleidigen. Es mag ja sein, dass du wirtschaftlich zu unbedarft bist um zu verstehen, dass viel Faktoren bei einer derartigen Anschaffung eine Rolle spielen und nicht nur absolute Leistung, aber es macht nun wirklich wenig Sinn jedes Mal anderen Dummheit zu unterstellen.
Man kann zur Mi200 und zur Nvidia Lösung nichts sagen, da die Infos schlicht und ergreifend fehlen. Und das CDNA2 nach Ryzen und RDNA ebenfalls sehr effizient sein wird, liegt eigentlich ziemlich auf der Hand...
Zur A100 und MI100 weiß man schon alles relevante, Hopper ist noch zu weit weg und bei der MI200 hält man zurzeit noch den Deckel drauf, obwohl die bereits an ausgewählte ausgeliefert wird. Was man jedoch durchaus kann, ist von den bekannten Systemen zurückrechnen, so bspw. von Australiens Setonix. Die Zusammensetzung deutet grob auf eine FP64-Leistung von etwa 40 - 50 TFlops pro Karte hin, was im besseren Fall grob gleichwertig sein könnte. Bzgl. der AI-Performance, wie schon erklärt, scheint es bisher eher darauf hinauszulaufen, dass man mit der Konkurrenz nicht mithalten können wird.
Entsprechend
weiß man jetzt schon, dass Ponte Vecchio sich im oberen FP64-Bereich bewegt, der für die MI200 überhaupt theoretisch infrage kommt.
Und darüber hinaus hast du bei deiner ganzen Paranoia meine Aussage zu Perf/Watt gleich komplett ignoriert, vermutlich weil du mal wieder nur rot gesehen hast und es dir gerade nicht in deine eingefahrene Schiene passte.
Aktuell weiß man weder was zur generellen Effizienz der Architektur noch zum konkreten Fertigungsprozess (N7, N6, N5 ?), d. h. der Punkt Perf/Watt ist immer noch weitestgehend offen und in einer derartigen Betrachtung könnte CDNA2 imme rnoch gut dastehen. Wobei man letzten Endes hier aber auch keine Wunder erwarten darf, denn Xe's Compute Tile wird bereits im N5 gefertigt.