AW: Samsung kündigt HBM2E mit bis zu 538 GB/s an
Für die GPU gut und schön, aber jetzt stell dir mal RAM Module im HBM Format vor[...]
Tech_Blogger's knappes "so nicht möglich" ist hier durchaus zutreffend. Hier sprechen diverse Punkte dagegen.
a) Die Speicherbausteine sprechen unterschiedliche Szenarien an und sind dementsprechend mit unterschiedlicher Zielsetzung entwickelt worden. Bei DDR geht es um den Transfer vieler kleiner Datenblöcke mit möglichst geringer Latenz, während GDDR und HBM auf den Transfer großer Datenblöcke mit maximaler Bandbreite ausgelegt sind, wobei hier der Latenz nur eine untergeordnete Rolle zukommt. Hier werden umfangreiche Datenblöcke angefordert und transferiert, so Maps (Texturen, Light, Specular, etc.) und umfangreiche Geometriedaten, während CPUs dagegen viele einzelne, kleine Requests all ihrer unterschiedlichen Threads über den gesamten Hauptspeicher verteilen, sodass hier eine möglichst geringe latenz essentiell ist.
Hinzu kommt, dass bspw. bereits GDDR und DDR ein komplett anderes Interface verwenden und daher nicht direkt austauschbar sind. Beispielsweise kann GDDR pro Clock Cycle lesen und schreiben, während DDR nur lesen oder schreiben kann, was bereits unterschiede auf PHY-Ebene bedingt.
b) Eine Verwendung im Steckformat, wie bspw. ein DIMM-Modul, wäre ein Fiasko. Einmal aufgeschlüsselt:
(1) DDR4 nutzt derzeit 288 Pins auf 13 cm Länge. Bereits die 1024 Bus-Kontakte eines HBM2-Stacks würden in der gleichen Bauform zu einer Länge von 45 cm führen, yeah, ein 1/2 m langes, 3 cm hohes PCB auf dem ein einziger, fingernagelgroßer HBM2-Chip drauf sitzt.

Man könnte jetzt noch annehmen, dass man die Kontaktgrößen (im Wesentlichen die Breite) verkleinert, sodass man vielleicht nur auf die halbe Länge kommt, also grob 23 cm Länge, jedoch dürfte das bzgl. den Toleranzen des Stecksystems, und dem Einbau bereits problematisch werden und wäre möglicherweise nicht mehr endkundentauglich.
(2) Leitungsbahnlängen bei dieser Größenordnung, Signallaufzeiten und Anzahl der Bahnen. Ob die ersten beiden Punkte überhaupt sinnvoll zu lösen wären in dieser makroskopischen Dimension, wage ich nicht einmal abzuschätzen. Der dritte Punkt jedoch würde die Komplexität der Mainboards beträchtlich erhöhen, da sich hier die notwendigen Leiterbahnen vervielfachen und damit bräuchte man deutlich mehr als nur eine zusätzliche Layer im Mainboard-PCB, was die Boards deutlich verteuern und mindestens in die Kateogie Serverboards heben würde, falls nicht noch gar darüber hinaus. (
Epyc mit seinen 8 Kanälen kommt gerade mal auf 8 x 64/72 Datenleitungen = 512/576 und hier soll es ja nicht einmal bei einem HBM2-Stack bleiben 
)
(3) Die 1024 Bit stellen lediglich den Datenbus eines HBM2-Stacks dar. Beispielsweise ein DDR-Kanal arbeitet mit 64 Bit, das DIMM-Modul verwendet jedoch in Summe 288 Kontakte. Beim HBM konnte ich nie die Zahl der ausgeführten Kontakte eruieren, aber es gibt bspw. in diesem Kontext von der JEDEC eine Micro-Pillar Grid Array Definition, die 3982 Micro-Bumps definiert. Schlussendlich kann man hier eine deutlich höhere Zahl an Kontakten annehmen, als nur die 1024!
(4) Jetzt soll es aber nicht nur ein einzelner HBM2-Stack auf einem solchen Speichermodul sein, was nach aktueller Spezifikation auch bestenfalls nur vernachlässigbare 24 GiB wären, sondern es sollen gleich vier Stacks gebündelt werden. Wenn man Punkt (3) ignoriert und bei (1) die gar angenommene halbe Kontaktbreite unterstellt, käme man damit gar auf ein 92 cm langes Modul mit vier winzig kleinen Chips darauf.
So viel zur Überlegungen von einem HBM2-Vierer-Stack auf einem DIMM-ähnlichen Steckmodul.
(c) Dein "weitergesponnenes" Szenario gibt es schon weitestgehend und nennt sich gemeinhin SoC, so bspw. heutzutage in jedermanns Hand in Form eines Mobiltelefons. Das Problem ist jedoch die fest vorgegebene Zusammensetzung der Hardwarekomponenten, die nicht jedermanns Sache ist, weder mit Blick auf Privatpersonen noch mit Blick auf die Industrie, deren Anforderungen noch viel differenzierter sind. Die Modularität der heutigen IT-Hardware kommt nicht von ungefär. (Beispielsweise Intels Lakefield ist ein komplettes SoC im 3D-Packaging mit 4 GiB DRAM oben auf dem Chip.)
(d) Und nein, Intel hat noch nicht gemacht, was du skizzierst. Wenn das eine Anspielung auf Kaby Lake G war, dann ist das nicht zutreffend. In einer vereinfachten Darstellung ist das Design schlicht eine Intel-CPU mit einer über PCIe angeschlossenen Vega-GPU (
die genaugenommen gar nicht mal "echt" Vega, sondern Semi-Custom ist und eher auf Polaris basiert).
Verwendet wird hier ein bekannter Kaby Lake Core und auf dem gleichen Package wird mittels 8 PCIe-Lanes die "Vega"-GPU angeschlossen. An der GPU wird zudem mittels EMIB ein einzelner 4 GiB-HBM2-Stack angeschlossen, der ausschließlich der GPU und nicht der CPU zur Verfügung steht.
Vielleicht hast du das mit dem Core i7-5775C aus 2015 verwechselt, der 128 MiB Embedded-
DRAM auf dem Package hatte, der tatsächlich als L4-Cache fungierte und von dem Cache-lastige CPU-Tasks beträchtlich profitierten und in kleinerem Rahmen auch die iGPU.
Als Steckmodul und DRAM/DDR-Ersatz kann man sich HBM2 zweifelsfrei abschminken, was schon alleine an dem viel zu breiten Bus scheitert. Vielleicht wird man aber in 18 bis 36 Monaten zumindest auf Servern einen HBM2/3-L4-Cache zu sehen bekommen, wer weiß.