Instinct MI100: AMD mit 120 Compute Units auf der "schnellsten HPC-Karte"

Bl4ckR4v3n · 18. November 2020

gerX7a schrieb:
Derartiges habe ich dir auch nirgends unterstellt. Bist du sicher, dass du mir antworten wolltest?

Das las sich anders. Wenn ich das missverstanden entschuldigung.

gerX7a schrieb:
Darüber hinaus, wie aus meinem vorausgegangenen Post bereits hervorgeht, könnt ihr euch durchaus über das "exklusiv" streiten, denn selbstredend will Micron mittelfristig seine Entwicklung in größerem Rahmen vermarkten und würde sie möglicherweise auch gerne als GDDR6X-Standard sehen, aber absehbar wird die aktuell schon indirekt nVidia-exklusiv sein, weil diese sich entsprechende Kontingente gesichert haben werden, da ihre Architektur (im HighEnd) zwingend darauf aufbaut, sodass sie sich hier keinen Lieferengpass erlauben können. Da von einem so neuen Speicher anfänglich erst mal nicht allzu viel gefertigt wird, wird der damit quasi durchaus nVidia-exklusiv für eine gewisse Zeit, da keine nennenswerten Mengen mehr übrig bleiben werden, sodass bspw. AMD damit kein relevantes Volumenprodukt aufsetzen könnte, denn die werden sich ihrerseits natürlich auch nicht freiwillig in eine Abhängigkeit zu einem vorerst schlecht lieferbaren Produkt begeben.
Schlussendlich könnte man schiedsrichten, dass ihr beide in gewisser Weise Recht habt.

Gibt doch sicher abseits von PC GPUs Nutzen für solche Technologien.
Nvidia wird natürlich vorerst ruhe haben. Schließlich müssen alle Interessenten erstmal passende Controller aufsetzen, validieren etc.
Die Speicherproduktion soll sehr flexibel und ein Wechsel auf unterschiedliche Produkte recht schnell möglich sein. Da kann ich mir nicht vorstellen, dass Micron nicht in der Lage wäre bei entsprechenden Bedarf zu reagieren. Ist ja nicht so, dass AMD 2 Wochen vor Release sagt: "Moin brauche mal eben 1 Mio GDDR6X Chips bitte"
Zumal das für AMD vermutlich derzeit sowieso kein Thema ist. Mit dem InfinityCache hat man ja quasi das Problem Speicherbandbreite umschifft.
Bin sowieso gespannt ob der GDDR6X noch länger bleibt oder wieder in der Versenkung verschwindet.

TheGermanEngineer · 19. November 2020

user42 schrieb:
Absolut richtig.
Das muss bei @PCGH erst noch ankommen.

Nein, die PCGH hat hier nur übernommen. Hast du dir mal das Datenblatt direkt bei AMD angeschaut? Die sprechen auch von passiv, aber ich denke mal, wenn man sich mit solcher Hardware auskennt, weiß man ja ohnehin was gemeint ist.

gerX7a · 19. November 2020

Bl4ckR4v3n schrieb:
Das las sich anders. Wenn ich das missverstanden entschuldigung.

Es ist relativ selten, dass man bei mir was zwischen den Zeilen zu lesen hat ... daher, alles gut und kein Grund sich zu entschuldigen. ;-)

Bl4ckR4v3n schrieb:
Gibt doch sicher abseits von PC GPUs Nutzen für solche Technologien. [...]

Selbstredend, aber die Entwicklung ist noch relativ neu und Micron kann nicht beliebig Kapazitäten verschieben, da sie ja auch noch den übrigen Markt bedienen müssen (auch bei denen liegen keine Kapazitäten ungenutzt brach, die man einfach (re)aktivieren könnte).
Mittelfristig werden sich sicherlich noch andere Produkte für ihre OC-Bausteine finden, jedoch übermäßig hoch dürfte der Bedarf abseits von GPUs nicht sein. Steigen die Anforderungen an die Bandbreite und/oder an die Speicherkapazität weiter, kommt man schnell um HBM2 nicht herum, zumal sich bei höherwertigen Produkten die Mehrkosten auch leicht einpreisen lassen. Das Problem ist schlicht der Verbrauch für eine derartige Speicherlösung. Am Ende entwickelt man ein Design für ein gewisses Power Budget, bspw. 100 W oder vielleicht auch 300 W pro Karte um bis zu X Karten in einem Server unterzubringen. Wenn nun Bandbreite A und/oder Kapazität B erforderlich ist für ein konkretes Produkt, schlägt das Speichersubsystem zu sehr aufs Power Budget, sodass zu wenig Energie für den eigentlichen Chip übrig bleibt, sprich die tatsächlich realisierbare Rechenleistung wird eingeschränkt. Die Energiekosten um Bits hin und her zu bewegen, haben in den letzten Jahren im Datacenter drastisch zugenommen, schlicht, weil die Datenmenge und benötigte Bandbreite extrem angewachsen ist.

Beispielsweise: Bezüglich des GDDR6/HBM2-PHYs vergleicht Anfang 2020 Rambus das GDDR6-Design relativ, das mit dem 1,5- bis 1,75-fachen (Wafer-)Flächenbedarf und einem 3,5- bis 4,5-fachen Strombedarf ausgewiesen wird im Vergleich zu einem vergleichbaren HBM2-PHY. Man beachte, dass der Vergleich nur das PHY im Chip betrifft, also direkt auf das Power Budget des Chip anzurechnen ist. (Der Vergleich bezog sich auf exemplarisch zu erreichende 256 GiB/s und 8 GiB Kapazität, einmal mittels vier GDDR6-Chips mit 16 Gb und einmal ein einzelner 1024 Bit 2-Gbps-HBM2-Chip.) Hinzu kommt, dass auch die HBM2-Chips selbst effizienter sind; so benötigt ein einzelber 8 GiB-HBM2E-Chip etwa nur die Hälfte dessen, was vier 16 Gbps-GDDR6-Chips benötigen und der HBM2-Chip liefert dennoch zusätzlich eine etwa +40 % höhere Bandbreite. (Micron's OC-GDDR6 ist noch einmal stromhungriger. *)

Im Consumer-Segment (im HighEnd) sprechen aktuell jedoch noch die Kosten gegen eine breitgefächerte Nutzung von HBM2, wobei man sich mit den Aufwendungen, die die aktuellen GPU-Generationen betreiben **), dem Wendepunkt in der Kalkulation bereits recht nahe angenähert haben dürfte, sodass ich für die NextGen in 2022+ (RDNA3 und Hopper) ggf. im HighEnd nicht gesichert, aber zumindest mit einer höheren Wahrscheinlichkeit HBM2 erwarten würde.

*) Was möglicherweise auch der Grund sein könnte, warum eine RTX 3080 mit 20 GiB erst Anfang nächsten Jahres kommen wird, da zwanzig 8 Gb-BGAs (via Clamshell) mit diesem Speicher einfach zu sehr auf das Power Budget des Boards schlagen, d. h. nVidia wird voraussichtlich darauf warten, dass Micron von diesem neuen Speicher 16 Gb-BGAs liefern kann.
Bei der RTX 3070 hat man das Speicherproblem dagegen nicht, da man hier Standard-GDDR6 verwendet, von dem 16 Gb-BGAs schon lange verfügbar sind und die nVidia bspw. schon umfangreich auf der Titan RTX, Quadro RTX 6000 und 8000 nutzte.

**) nVidia's beträchtliche Aufwendungen mit dem OC-GDDR6, das beträchtlich aufs Power Budget schlägt und AMD verlagert die Kosten, indem die ihren Navi 21 um etwa 100 mm2 vergrößern und TSMC damit pauschal mehr Geld pro Chip bezahlen, indem sie den übergroßen InfinityCache implementieren.

Instinct MI100: AMD mit 120 Compute Units auf der "schnellsten HPC-Karte"

Bl4ckR4v3n

Software-Overclocker(in)

TheGermanEngineer

BIOS-Overclocker(in)

gerX7a

BIOS-Overclocker(in)

Ähnliche Themen