HBM3-Speicher: SK Hynix plant mit 896 GB/s und GDDR6 mit 27 Gbps

PCGH-Redaktion · 19. Januar 2022

Jetzt ist Ihre Meinung gefragt zu HBM3-Speicher: SK Hynix plant mit 896 GB/s und GDDR6 mit 27 Gbps

Der südkoreanische Speicherchiphersteller SK Hynix hat für seine kommenden HBM3-Produkte die Spezifikationen erneut aktualisiert, die Ende Februar näher vorgestellt werden sollen.

Bitte beachten Sie: Der Kommentarbereich wird gemäß der Forenregeln moderiert. Allgemeine Fragen und Kritik zu Online-Artikeln von PC Games Hardware sind im Feedback-Unterforum zu veröffentlichen und nicht im Kommentarthread zu einer News. Dort werden sie ohne Nachfragen entfernt.

Zurück zum Artikel: HBM3-Speicher: SK Hynix plant mit 896 GB/s und GDDR6 mit 27 Gbps

Knuddelsucht · 19. Januar 2022

Wäre mal interessant sowas als normalen RAM zu haben. Da könnte man viel kleinere Module haben und Platz auf dem Mainboard einsparen

Kotzi01 · 19. Januar 2022

Also der "Normalo" dürfte nur Bahnhof verstehen! Der Artikel ist ein reines Durcheinander.... Es wird von GB/s und Gbit/s geschrieben.....

Und dann auch noch Pinweise? (wieviele Pin´s hat denn so ein Ram?) Bzw. was kommt am Ende ca. am fertigen Produkt raus?

Hier ist ja gar nichts vergleichbar. Man hätte ja auch durchaus die Werte vom jetzigen GDDR5(X) und HBM mal mit hinschreiben können?????!

Eventuell alles auf GB/s umgerechnet?.... eben für "Otto Normalo" halt

Vielleicht sieht das ja noch jemand so wie ich.....

scorplord · 20. Januar 2022

Knuddelsucht schrieb:
Wäre mal interessant sowas als normalen RAM zu haben. Da könnte man viel kleinere Module haben und Platz auf dem Mainboard einsparen

Wird vermutlich nicht sinnvoll funktionieren. Im Artikel sind zwar jetzt keine Taktraten angegeben aber ich denke mal an der Grundlage von HBM wird jetzt nicht so viel anders sein.
Sprich niedrige Taktrate im Vergleich zu DDR-RAM dafür aber vielfach Breiter (mehr Übertragungen gleichzeitig).

Für RAM der an CPUs angeschlossen wird benötigt man aber in den meisten Fällen eine möglichst niedrige Latenz und die ergibt sich aus hohem Takt und scharfen Timings.

gerX7a · 20. Januar 2022

Knuddelsucht schrieb:
Wäre mal interessant sowas als normalen RAM zu haben. Da könnte man viel kleinere Module haben und Platz auf dem Mainboard einsparen

Kommt indirket mit Sapphire Rapids und seinen Ablegern, denn dessen HBM2E-Varianten sollen in einem speziellen Betriebsmodus auch komplett ohne DIMMs betrieben werden können, d. h. man kann hier mit rein dem On-Package-HBM mit seinen X-Hundert GiB/s an Bandbreite arbeiten. Was das aber für konkrete Workloads bringt und ob sich so etwas für einen HEDT-Ableger lohnt, bleibt abzuwarten. Ich würde vermuten insbesondere AVX-lastige Workloads mit hohem Datendurchsatz wie bspw. ML-Workloads werden hier besonders von profitieren. Den Consumer- oder selbst den HEDT-Markt könnte vermutlich schon der Preis "killen". (Beispielsweise als HEDT wäre eine CPU, bestehend aus nur zwei SRP-Tiles mit 32 GiB HBM2E denkbar ...)

Kotzi01 schrieb:
Also der "Normalo" dürfte nur Bahnhof verstehen! [...]

Ignorier das alles und beschränke dich einfach auf die hohe dreistellige Bandbreite pro einzelnem HBM-Chip und behalte im Hinterkopf, dass ein einzelnes DDR4/5-Modul gerade mal um die 25 - 35 GiB/s hinbekommt. Das sind schon immense Unterschiede, wobei die Latenz aber eine andere Frage ist, wobei etwaige Nachteile bein Random-Zugriff jedoch teilweise wieder durch die extrem höhere Bandbreite wettgemacht werden dürften.

Zur Konkretisierung: Ein HBM-BGA-Baustein kann nach aktueller Spec aus bis zu 12 Lagen (stacked chips, verbunden mit TSV's) bestehen und damit bis zu 24 GiB Gesamtspeicherkapazität realisieren.
Die Angabe Gigabits pro Pin pro Sekunde bezieht sich auf die Basis 2 (nicht 10). Ein Chip verfügt zudem über 1024 Pins (ein 1024-Bit-Interface) und entsprechend erreicht ein einzelner 3,2 Gbps-HBM2E-Chip hier rd. 410 GiB/s. (Also so viel wie eine aktuelle Mittelklasse-GPU mit ihren acht GDDR6-BGAs (256 Bit-SI); bspw. Epyc oder der Threadripper Pro erreichen mit ihren 8 Speicherkanälen gerade mal die Hälfte der Bandbreite eines solchen einzelnen Chips.)

Rambus stellte bereits Mitte August seine HBM3-IP (PHY + Controller) vor, die bis zu 8,4 Gbps an Bandbreite realisieren können soll.

Abschl. Anmerkung zum Namen: Das aktuelle "E" in HBM2E gibt es gemäß Spezifikation gar nicht. Hierbei handelt es sich lediglich um einen Marketingbegriff, der erstmals von Samsung eingesetzt wurde. Konkret sind dies schlicht schnellere BGAs gemäß der offiziellen HBM2-Spezifikation und der nächste Schritt in der Standardisierung ist HBM3.
Weil es gerade passt: Der schnelle GDDR6-Speicher von Micron, den Ampere nutzt, ist ebenso wenig GDDR6X *) sondern schlicht eine proprietäre Eigenentwicklung mit PAM4-Signalisierung, die einen deutlich höheren Pro-Pin-Takt verkraftet. **) Ob die JEDEC das jemals als Standard übernehmen wird, ist unklar. Vereinfachend spricht die Presse jedoch bei Ampere zur Abgrenzung immer von "GDDR6X".

*) Aktuell gibt es von der JEDEC keine GDDR6X-Spezifikation, so wie es bspw. von denen GDDR5X gibt.
**) Hier in konkreten Produkten aktuell bis zu 19,5 Gbps bei 32 (Daten-)Pins pro Micron-OC-GDDR6-BGA. Mainstream-GDDR6 gemäß JEDEC-Spec begnügt sich derzeit mit 14 Gbps, im HighEnd gibt es auch mal 16 Gbps, 18 Gbps stellen bisher das reguläre Limit, werden aktuell aber von keinem GPU-Hersteller in einem Produkt genutzt. (Zur Vereinfachung pro BGA: 14 Gbps ~ 56 GiB/s, 16 Gbps ~ 64 GiB/s, 19 Gbps ~ 76 GiB/s. )

scorplord schrieb:
Wird vermutlich nicht sinnvoll funktionieren. Im Artikel sind zwar jetzt keine Taktraten angegeben aber ich denke mal an der Grundlage von HBM wird jetzt nicht so viel anders sein.
Sprich niedrige Taktrate im Vergleich zu DDR-RAM dafür aber vielfach Breiter (mehr Übertragungen gleichzeitig).

Für RAM der an CPUs angeschlossen wird benötigt man aber in den meisten Fällen eine möglichst niedrige Latenz und die ergibt sich aus hohem Takt und scharfen Timings.

Wie oben schon erklärt funktioniert das sehrwohl, da Intel das schon mit Sapphire Rapids SP realisiert hat und auch dem allgemeinen Vernehmen nach AMD mit Genoa angeblich nachziehen soll.
Bei Intel's SPR hat ein CPU-Tile einen HBM2E-Controller um einen HBM2E-BGA anzubinden. Die CPU besteht typischerweise aus vier Tiles und die HBM2E-Modelle können entsprechend 4 BGAs ansteuern, wobei man hier von nur 64 GiB (8 Stacks) und nicht etwa 96 GiB (12 Stacks) Gesamtkapazität ausgeht. Anzunehmenderweise wird man hier den Speicher jedoch mit einer vergleichsweise niedrigen Taktung fahren, also obwohl es HBM2E ist, werden die BGAs möglicherweise mit etwas wie 1,6 - 2,4 Gbps betrieben werden, weil mehr einfach Overkill wäre und dennoch aufs thermische Budget der CPU schlagen würde. Mit 2,4 Gbps würde die CPU eine HBM-Bandbreite von um die 1228 GiB/s oder 1,20 TiB/s aufweisen, was ungefähr derzeit dem vier- bis fünffachen einer typischen Serverspeicherbandbreite entspricht. Intel sieht in dem Design unterschiedliche Betriebsmodi vor. Einerseits kann der HBM2E als transparenter L4$ fungieren, andererseits kann er aber auch als separater Speicherpool direkt angesprochen werden. Eine Server-App könnte somit normal über das DRAM laufen und kritische Bereiche gezielt über den bis zu 64 GiB großen HBM-Speicherpool laufen lassen. Daneben konnte man auch lesen, dass die CPUs gar auch ohne DRAM/DIMMs betrieben können werden sollen, d. h. hier fungiert das HBM2E dann zwangsweise als Hauptspeicher. Ich würde aber vermuten, dass nur wenige Server derart spezifisch ausgerichtet sein werden, sodass man denen DRAM vorenthält (vielleicht fürs Number Crunshing?, bei bspw. ML benötigt man schon wieder viel Speicher für große Netzte und hier würde man den HBM2E als L4$ nutzen um die mittlere Speicherbandbreite insgesamt deutlich anzuheben).
Auf der anderen Seite beflügelten diese Eckdaten Überlegungen zu einem HEDT-Ableger mit nur bspw. 2 CPU-Tiles, 32 GiB HBM2E und bspw. einer Speicherbandbreite von 600 GiB/s, also gut dem 10-fachen, was aktuell die allerschnellsten Consumer-Plattformen mit DDR5 zustande bringen.

Am Ende aber vermutlich nur Fantasterein. Ein optimierter und größerer Cache wird hier vermutliche das beste P/L-Verhälsnis für Consumer & Enthusiasten bieten, so wie AMDs V-Cache oder die von Intel zu Raptor Lake bereits kolportierten "Cache-Optimierungen", die in eine ähnliche Kerbe schlagen werden (aktuell nur noch nicht im Detail konkretisiert wurden).

6Pac · 20. Januar 2022

Kotzi01 schrieb:
Und dann auch noch Pinweise? (wieviele Pin´s hat denn so ein Ram?) Bzw. was kommt am Ende ca. am fertigen Produkt raus?

Hier ist ja gar nichts vergleichbar. Man hätte ja auch durchaus die Werte vom jetzigen GDDR5(X) und HBM mal mit hinschreiben können?????!

Ich verzähle mich gerade die ganze Zeit und gebe nun auf.

Ich belasse es bei der automatischen Übersetzung der älteren Pressemitteilung aus dem letzten Jahr.

SK hynix kündigt Entwicklung von HBM3 DRAM an
[...]Das neueste Produkt kann bis zu 819 GB (Gigabyte) pro Sekunde verarbeiten, was bedeutet, dass 163 FHD-Filme (Full-HD) (jeweils 5 GB) in einer einzigen Sekunde übertragen werden können.
Dies entspricht einer Steigerung der Datenverarbeitungsgeschwindigkeit um 78 % im Vergleich zum HBM2E.[...]

gerX7a · 20. Januar 2022

Als ergänzende Anmerkung: Die nach außen geführten Kontakte nicht mit den Daten-PINs verwechseln.

DDR4/5-DIMMs führen 288 Kontakte/"PINs" nach außen, haben aber nur 64 Datenenleitungen.
GDDR6-BGAs haben 180 Kontakte ("Balls"), aber nur 32 Datenleitungen/Kontakte, die hier halt extrem hoch getaktet sind, was auch erklärt warum GDDR6 so stromhungrig ist, einerseits bei den BGAs selbst aber ebenso beim PHY. (GDDR5 arbeitete noch mit 170 / 32 Kontakten.)
HBM2/3 arbeitet mit 1024 Datenleitungen. Wie viele Kontakte hier elektrisch insgesamt nach außen geführt werden, konnte ich bisher nicht in Erfahrung bringen und Nachzählen ist da so eine Sache, s. o.

scorplord · 20. Januar 2022

gerX7a schrieb:
Kommt indirket mit Sapphire Rapids und seinen Ablegern, denn dessen HBM2E-Varianten sollen in einem speziellen Betriebsmodus auch komplett ohne DIMMs betrieben werden können, d. h. man kann hier mit rein dem On-Package-HBM mit seinen X-Hundert GiB/s an Bandbreite arbeiten. Was das aber für konkrete Workloads bringt und ob sich so etwas für einen HEDT-Ableger lohnt, bleibt abzuwarten. Ich würde vermuten insbesondere AVX-lastige Workloads mit hohem Datendurchsatz wie bspw. ML-Workloads werden hier besonders von profitieren. Den Consumer- oder selbst den HEDT-Markt könnte vermutlich schon der Preis "killen". (Beispielsweise als HEDT wäre eine CPU, bestehend aus nur zwei SRP-Tiles mit 32 GiB HBM2E denkbar ...)

Ignorier das alles und beschränke dich einfach auf die hohe dreistellige Bandbreite pro einzelnem HBM-Chip und behalte im Hinterkopf, dass ein einzelnes DDR4/5-Modul gerade mal um die 25 - 35 GiB/s hinbekommt. Das sind schon immense Unterschiede, wobei die Latenz aber eine andere Frage ist, wobei etwaige Nachteile bein Random-Zugriff jedoch teilweise wieder durch die extrem höhere Bandbreite wettgemacht werden dürften.

Zur Konkretisierung: Ein HBM-BGA-Baustein kann nach aktueller Spec aus bis zu 12 Lagen (stacked chips, verbunden mit TSV's) bestehen und damit bis zu 24 GiB Gesamtspeicherkapazität realisieren.
Die Angabe Gigabits pro Pin pro Sekunde bezieht sich auf die Basis 2 (nicht 10). Ein Chip verfügt zudem über 1024 Pins (ein 1024-Bit-Interface) und entsprechend erreicht ein einzelner 3,2 Gbps-HBM2E-Chip hier rd. 410 GiB/s. (Also so viel wie eine aktuelle Mittelklasse-GPU mit ihren acht GDDR6-BGAs (256 Bit-SI); bspw. Epyc oder der Threadripper Pro erreichen mit ihren 8 Speicherkanälen gerade mal die Hälfte der Bandbreite eines solchen einzelnen Chips.)

Rambus stellte bereits Mitte August seine HBM3-IP (PHY + Controller) vor, die bis zu 8,4 Gbps an Bandbreite realisieren können soll.

Abschl. Anmerkung zum Namen: Das aktuelle "E" in HBM2E gibt es gemäß Spezifikation gar nicht. Hierbei handelt es sich lediglich um einen Marketingbegriff, der erstmals von Samsung eingesetzt wurde. Konkret sind dies schlicht schnellere BGAs gemäß der offiziellen HBM2-Spezifikation und der nächste Schritt in der Standardisierung ist HBM3.
Weil es gerade passt: Der schnelle GDDR6-Speicher von Micron, den Ampere nutzt, ist ebenso wenig GDDR6X *) sondern schlicht eine proprietäre Eigenentwicklung mit PAM4-Signalisierung, die einen deutlich höheren Pro-Pin-Takt verkraftet. **) Ob die JEDEC das jemals als Standard übernehmen wird, ist unklar. Vereinfachend spricht die Presse jedoch bei Ampere zur Abgrenzung immer von "GDDR6X".

*) Aktuell gibt es von der JEDEC keine GDDR6X-Spezifikation, so wie es bspw. von denen GDDR5X gibt.
**) Hier in konkreten Produkten aktuell bis zu 19,5 Gbps bei 32 (Daten-)Pins pro Micron-OC-GDDR6-BGA. Mainstream-GDDR6 gemäß JEDEC-Spec begnügt sich derzeit mit 14 Gbps, im HighEnd gibt es auch mal 16 Gbps, 18 Gbps stellen bisher das reguläre Limit, werden aktuell aber von keinem GPU-Hersteller in einem Produkt genutzt. (Zur Vereinfachung pro BGA: 14 Gbps ~ 56 GiB/s, 16 Gbps ~ 64 GiB/s, 19 Gbps ~ 76 GiB/s. )

Wie oben schon erklärt funktioniert das sehrwohl, da Intel das schon mit Sapphire Rapids SP realisiert hat und auch dem allgemeinen Vernehmen nach AMD mit Genoa angeblich nachziehen soll.
Bei Intel's SPR hat ein CPU-Tile einen HBM2E-Controller um einen HBM2E-BGA anzubinden. Die CPU besteht typischerweise aus vier Tiles und die HBM2E-Modelle können entsprechend 4 BGAs ansteuern, wobei man hier von nur 64 GiB (8 Stacks) und nicht etwa 96 GiB (12 Stacks) Gesamtkapazität ausgeht. Anzunehmenderweise wird man hier den Speicher jedoch mit einer vergleichsweise niedrigen Taktung fahren, also obwohl es HBM2E ist, werden die BGAs möglicherweise mit etwas wie 1,6 - 2,4 Gbps betrieben werden, weil mehr einfach Overkill wäre und dennoch aufs thermische Budget der CPU schlagen würde. Mit 2,4 Gbps würde die CPU eine HBM-Bandbreite von um die 1228 GiB/s oder 1,20 TiB/s aufweisen, was ungefähr derzeit dem vier- bis fünffachen einer typischen Serverspeicherbandbreite entspricht. Intel sieht in dem Design unterschiedliche Betriebsmodi vor. Einerseits kann der HBM2E als transparenter L4$ fungieren, andererseits kann er aber auch als separater Speicherpool direkt angesprochen werden. Eine Server-App könnte somit normal über das DRAM laufen und kritische Bereiche gezielt über den bis zu 64 GiB großen HBM-Speicherpool laufen lassen. Daneben konnte man auch lesen, dass die CPUs gar auch ohne DRAM/DIMMs betrieben können werden sollen, d. h. hier fungiert das HBM2E dann zwangsweise als Hauptspeicher. Ich würde aber vermuten, dass nur wenige Server derart spezifisch ausgerichtet sein werden, sodass man denen DRAM vorenthält (vielleicht fürs Number Crunshing?, bei bspw. ML benötigt man schon wieder viel Speicher für große Netzte und hier würde man den HBM2E als L4$ nutzen um die mittlere Speicherbandbreite insgesamt deutlich anzuheben).
Auf der anderen Seite beflügelten diese Eckdaten Überlegungen zu einem HEDT-Ableger mit nur bspw. 2 CPU-Tiles, 32 GiB HBM2E und bspw. einer Speicherbandbreite von 600 GiB/s, also gut dem 10-fachen, was aktuell die allerschnellsten Consumer-Plattformen mit DDR5 zustande bringen.

Am Ende aber vermutlich nur Fantasterein. Ein optimierter und größerer Cache wird hier vermutliche das beste P/L-Verhälsnis für Consumer & Enthusiasten bieten, so wie AMDs V-Cache oder die von Intel zu Raptor Lake bereits kolportierten "Cache-Optimierungen", die in eine ähnliche Kerbe schlagen werden (aktuell nur noch nicht im Detail konkretisiert wurden).

Erstens: Gut das du es selbst sehr schnell schon relativierst
Zweitens: Ich stelle klar bzw. drücke mich klarer aus. Ich meine nicht das es technisch nicht funktioniert oder vollkommen nutzlos ist.
Ich rede vom Gaming weil sau viele Leute immer anfangen mit das würde in Games so mega gut laufen aber wenn ich die zugrunde liegende Funktionsweise betrachte und dann schaue wie viel Spieleleistung aber meist mit Timings rausgeholt werden kann.
Für Server und auch Workstations kann ich mir das gut vorstellen wenn da sehr speicherhungrige und Bandbreiten lastige Anwendungen anstehen.

Sapphire Rapids ist ja auch keine Consumer CPU.

Technologie_Texter · 20. Januar 2022

Wenn ich das auf Seite 6 richtig verstehe, sind es gesamt 6303 Pins/Kontakte?

6303X Ø0.025 ±0.003

https://media-www.micron.com/-/media/client/global/documents/products/data-sheet/dram/hbm2e/8gb_and_16gb_hbm2e_dram.pdf?rev=dbfcf653271041a497e5f1bef1a169ca

gerX7a · 20. Januar 2022

scorplord schrieb:
Erstens: Gut das du es selbst sehr schnell schon relativierst
Zweitens: Ich stelle klar bzw. drücke mich klarer aus. Ich meine nicht das es technisch nicht funktioniert oder vollkommen nutzlos ist.
Ich rede vom Gaming weil sau viele Leute immer anfangen mit das würde in Games so mega gut laufen aber wenn ich die zugrunde liegende Funktionsweise betrachte und dann schaue wie viel Spieleleistung aber meist mit Timings rausgeholt werden kann.
Für Server und auch Workstations kann ich mir das gut vorstellen wenn da sehr speicherhungrige und Bandbreiten lastige Anwendungen anstehen.

Sapphire Rapids ist ja auch keine Consumer CPU.

Ich schrieb oben nicht umsonst mehrfach von HEDT. Wenn Intel die tatsächlich wiederbeleben sollte, wird die auf dem Sapphire Rapids-Desing basieren, ebenso wie die Xeon-W's und bei Intels großem Absatzvolumen können die sich so eine kleine Spezialplattform deutlich eher leisten, d. h. wenn man hier das und ein wenig Wunsch nach einem Halo-Produkt und etwas für Leute, die nicht aufs Geld schauen und/oder einfach spezielle Bedürfnisse haben in einen Topf wirft, könnten die da auch leicht ein paar Chips mit HBM aufsetzen, insbesondere, wenn man HEDT absehbar auf 2 Tiles beschränkt, was etwas mehr Platz auf dem Substrat/Sockel lassen sollte, sodass es leicht sein sollte hier Versionen mit und ohne auf dem gleichen Sockel zu realisieren (bei Sapphire Rapids SP ist das meines Wissens nach bisher noch nicht ganz klar).

*) Auf der anderen Seite muss man sich aber auch Fragen, ob die Wiederbelebung oder Neuschaffung der HEDT-Plattform überhaupt noch wirtschaftlich sinnvoll ist. Mit einem mittlerweile bestätigten 24-Kern Raptor Lake im Consumer-Segment und von oben gedeckelt durch die neuen Xeon-W's bleibt da nicht mehr allzu viel Marktpotential meines Dafürhaltens, aber man kann halt schlecht abschätzen wie solche Firmen in derart turbulenten Zeiten Halo-Produkte und Werbeeffekte einschätzen und gewichten. (AMD hat ja gerade mit der wechselhaften Vorstellung zum gepimpten 5800X3D gezeigt, wie problematisch derartige Faktoren zu bewerten sind.)

Darüber hinaus, wie ich schon erklärte, es ist aktuell schwer abzuschätzen wie die Effekte bzgl. einem spezifischen Workload wie Gaming sein werden, denn wir reden hier nicht von einem kleinen bisserl mehr Bandbreite, wie bei DDR, vollkommen egal ob v4 oder v5, sondern wir reden hier potentiell von der 8- bis 12-fachen Speicherbandbreite. Aktuell habe zumindest ich da keinerlei Ableitungsmöglichkeiten, sodass ich da gespannt auf Tests warte, wenn sich denn die Möglichkeit tatsächlich ergeben sollte ...

DARPA · 21. Januar 2022

Ich weiss nicht, ob es am HBM lag. Aber die Radeon VII war mit Abstand die Grafikkarte mit der smoothesten Bildausgabe, die ich je hatte. Für mich immer noch die Frametime Königin. Was auch viele andere Nutzer bestätigten und von sich aus angesprochen haben.

HBM3-Speicher: SK Hynix plant mit 896 GB/s und GDDR6 mit 27 Gbps

PCGH-Redaktion

Kommentar-System

Knuddelsucht

Komplett-PC-Käufer(in)

Kotzi01

Komplett-PC-Aufrüster(in)

scorplord

Software-Overclocker(in)

gerX7a

BIOS-Overclocker(in)

6Pac

PC-Selbstbauer(in)

gerX7a

BIOS-Overclocker(in)

scorplord

Software-Overclocker(in)

Technologie_Texter

BIOS-Overclocker(in)

gerX7a

BIOS-Overclocker(in)

DARPA

Volt-Modder(in)

Ähnliche Themen