Eine interessante Theorie, doch ist sie nicht mit dem kompatibel, was Samsung selber schreibt: [...]
Eher nicht. Da wird nicht umsonst Bezug genommen auf die "
system performance" und anzunehmen, dass ein solcher Speicherstack gar noch mal 70 % weniger Energie verbraucht als ein regulärer HBM-Stack, der keinerlei Berechnungen durchführt, ist gar absurd. Natürlich wir ein HBM-PIM-Stack deutlich mehr ziehen *), nur die Gesamtbilanz fällt positiv aus, weil hier die Rechenoperationen näher an den Speicher hernagebracht werden (und sich dadurch Energiekosten für den Transport deutlich reduzieren) und die PCUs auch recht effizient sind, jedoch werden hier nun handfeste Fließkommaoprationen zusätzlich zu den regulären Speicherlese- und Schreiboprationen durchgeführt und da Samsung nicht zaubern kann, werden die Stacks natürlich mehr (oder mindestens gleich viel) Strom ziehen. Der wesentliche Punkt ist hier, dass man bspw. den stromhungrigen AI-Chip entfallen lassen kann und dass man den Speicher nur mit einer leichtgewichtigen effizienten CPU ansteuert (bspw. auf einer PCIe-Karte oder aber möglicherweise könnte man einen solchen Speicherpool auf einer PCIe-Karte direkt bspw. mittels CXL von der tatsächlichen CPU aus ansteuern?), während die eigentliche AI-Rechenlast, also die MMA-Operationen direkt in den HBM-Stacks selbst prozessiert werden.
Ein deutlicher Effizienzsprung bei den Speicher-Dies (bzw. hier Bereichen, da ja nun unterschiedliche Funktionseinheiten auf einem Die sind) wäre nur bei einem Fertigungswechsel (Full-Node-Sprung) in einer derartigen Größenordnung möglich, aber das auch nur bei gleichartigem Modus Operandi, denn die PCUs werden, weil hier komplexe Rechenoperationen vollzogen werden, mehr Strom ziehen, wenn sie genutzt werden, als die Speicherzellen.
*) Denkbar wäre nur, da die kolportierte AI-Leistung relativ gering ist, dass ein solcher Stack vielleicht durch den Entfall von 2 GiB-Kapazität und die vergleichsweise geringe Rechenleistung einigermaßen verbrauchsneutral realisert werden kann, also dass der HBM-PIM vielleicht selbst bei Berechnugnen nur so viel wie ein regulärer HBM-Stack mit 8 GiB verbraucht?
Darüber hinaus wird man abwarten müssen, wie sich das entwickelt. Beispielsweise nVidia's Tensor Cores sind weitaus flexibler und anscheinend leistungsfähiger. Aktuell werden hier in den Prototypchips bis zu 1,2 TFlops kolportiert. Das ist nicht übermäßig viel, wobei für 300 MHz vielelicht auch ein gutes Ergebnis?
Wie genau das jedoch einzuordnen ist, bleibt dennoch abzuwarten mit Blick auf erste konkrete Produkte, denn bspw. ein A100 erreicht mit seinen 400 W immerhin 312 TFlops FP16 bzw. bloat16-Performance, d. h. man würde geschlagene 260 HBM-PIM-BGAs benötigen für eine äquivalente Leistung (wenn die sich denn in der Größenordnung linear skalieren lässt?). Mit den bisher vorliegenden Informationen ergibt sich hier noch kein schlüssiges Gesamtbild. Beispielsweise ein 8 GiB-HBM2E-Stack zieht um die 5 W. Da mag man sich nicht ausrechnen wollen, was 260 Chips ziehen.
Hier fehlen wahrscheinlich schlicht noch ein paar erläuternde Details, denn Samsung wird sich sicherlich was dabei gedacht haben, denn das Energieproblem bzgl. des Datentransports ist schon seit längerem präsent und wird mit den zunehemnd größeren, verarbeiteten Datenmengen immer kritischer. Vielleicht wird die PCU in den finalen Chips ja noch leistungsfähiger? Aktuell opfert Samsung ein wenig Platz auf vier von acht Dies und fertigt somit einen 6 GiB-HBM-PIM-Stack. Nimmt man 10 Stacks = 60 GiB + 12 TFlops AI-Performance an, wäre das immer noch vergleichsweise wenig
Selbst wenn die von bspw. THW kolportierten 1,2 TFlops sich nur auf ein einzelnes Die beziehen, wären das dennoch nur maximal 4,8 TFlops für einen HBM-PIM-Stack, was immer noch nur eine überschaubare Leistung wäre ... hier fehlen einfach noch Details für eine sinnvolle Einordnung.
Nvidia ist dadurch alleine aber definitiv nicht HBM-freundlich. Das wäre ja so, wie wenn man Apple als [...]
Wenn nVidia als einer der größten HBM-Nutzer noch nicht HBM-freundlich (genug) ist, dann muss AMD i. V. dazu ja schon regelrecht HBM-feindlich sein, oder? Und möglicherweise ist selbst Intel gar noch HBM-freundlicher, denn auch die verbau(t)en über die Jahre in etlichen Produkten HBM, so in ihren FPGAs, in einigen AI-Chips, in Kaby Lake-G und Xe-HPC wird gar ein regelrechtes HBM-Monster.
Wenn ein Produkt(bestandteil) in einem bestimmten Markt (vorerst) nicht wirtschaftlich einsetzbar ist, dann ist das schlicht so. Da kann ich einem Hersteller doch keinen Vorwurf machen, dass er das Produkt dennoch zu verbauen hat, damit es endlich mal genutzt wird und damit hoffentlich der Produktpreis über die Zeit sinken wird. Das ist ein abwegiger Schluss und was dagegen überhaupt nicht abwegig ist, ist, dass dann stattdessen die eigentlich Käufer über viel zu hohe Produktpreise jammern werden, weil man ja unbedingt auf teuere Bauteile wie HBM setzen musste.
Was du eigenltich verlangst ist im Klartext: Verbaut mit bitte höherwertige Komponenten in euren Produkten und bezahlt das bitteschön auch aus eurer eigenen Tasche, denn ich bin selbstredend nicht bereit deshalb mehr für die Produkte zu bezahlen ... und wenn Du vielleicht doch, der Markt im allgemeinen ist es sicherlich hier nicht und dann wird der wieder auf die günstigeren Produkte der Konkurrenz ausweichen und der experimentierfreudige Hersteller ist gekniffen. Das kostet schlicht unnötigerweise Marge und die wird keiner ohne triftigen Grund aufgeben.
Btw ... AMD hat eher versucht mangelnde architektonische Leistungen mit einem schnellen Speicherinterface zu kompensieren in den letzten Jahren und mit Vega 10 hat man dann auch alle Consumer-Experimente bzgl. HBM eingestellt. Beispeispielsweise konnte man zu Vega lesen, dass AMD vermutlich weitaus mehr Stückzahlen über Apple aufgrund der festen Verträge absetzen konnte, als die selbst in Form eigener GPUs imstande waren zu verkaufen (Vega 64 und 56).
Und Vega 20 war primär ein Datacenterdesign (und zudem auch
weitestgehend nur ein Shrink), dass man lediglich auf der Consumer-Schiene kurzzeitig zweitverwertete und insbesondere hier konnte man schnell sehen, dass die zu hohen Fertigungskosten dem Ganzen auch ein schnelles Ende bereiteten, denn kaum hatten sich die Preise in sinnvolle Regionen bewegt, setzte AMD die Karte EOL, aber mit Vega 20 lief es anscheint im Datacenter ohnehin nicht gut, denn man suchte sich anschließend dann Apple als Drittverwerter und stampfte dann bspw. die MI60 ein, weil man die Instinct-Karten auf dem freien Markt wohl kaum loswurde.
Und noch mal, keine Hersteller hat hier Interesse primär etwas "anzukurbeln". Oberste Maxime ist wirtschaftlich zu fertigen um einen hohen Gewinn zu erzielen. Wenn keine äußere Zwänge vorliegen, wird man sich dem nicht wiedersetzen und aktuell kann man bspw. die Bandbreitenbedürfnisse, die man für HighEnd-GPUs hat offensichtlich günstiger mit GDDR6 zuwegebringen, nVidia mit einem breiteren SI und schnelleren Modulen und AMD derzeit gar mit einem noch schmaleren SI, das man mittels eines großen L3-Caches zu kompensieren versucht. Das ist am Ende schlicht ein Ausbalancieren zwischen technischen Bedürfnissen, Fertigungskosten und einer hohen Marge, die jedes Unternehmen anstrebt.
Wenn die Zeit reif ist, wird man HBM sicherlich im oberen HighEnd einziehen sehen, keine Frage, aber das scheint weiterhin noch ein wenig auf sich warten zu lassen. Die Speicherkapazität wird aktuell vorerst absehbar im Cosumer-Segment nicht weiter steigen, denn mit bspw. den 16 GiB von AMD hat man schon einen Wert jenseits dessen erreicht, was der Großteil der Konsumenten auch in den nächsten Jahren benötigen wird (und bspw. die Konsolen können eh nicht weiter wachsen). Es bleibt also (vorerst) einzig die wachsenden Bandbreitenanforderung als Triebfeder. Bei AMD würde ich gar ausschließen, dass RDNA3 mit HBM kommt, denn die könnten auch leicht auf ein 320 Bit-SI gehen, würden damit (zwangsweise) 20 GiB im HighEnd anbieten, könnten in Verbindunng mit schnellerem Speicher aber ihre aktuelle Bandbreite von 448 GiB/s auf bspw. 640 GiB/s erhöhen (theoretisch gar bis zu 720 GiB/s mit 18 Gbps) und könnten weiterhin mit einem großen L3 das Defizit kompensieren. Die sind damit in dieser Gen relativ gut gefahren, ich denke daher das wird man min. noch eine weitere Gen so fortsetzen.
Bei nVidia kann man das für 2022 dagegen noch nicht so genau absehen. Micron hat noch einiges mit ihrem OC-Speicher vor, ein minimal breiteres SI wäre denkbar, auch nVidia könnte seinen L2 deutlich vergrößern (der A100 hat monströse 40 MiB, L2 wohlgemerkt oder man könnte auch hier einen L3 implementieren) und hier wäre vielleicht dieses Mal die Wahrscheinlichkeit zumindest etwas höher, dass man dem Grenzwert für eine HBM-Implementation im HighEnd näher kommt oder diesen vielleicht gar erstmals überschreitet? Man wird sehen.