AMD Milan: Gerüchte um HBM2 als Cache

PCGH-Redaktion

Kommentar-System
Teammitglied
Jetzt ist Ihre Meinung gefragt zu AMD Milan: Gerüchte um HBM2 als Cache

Aktuell macht ein Gerücht die Runde, dass bei AMD Milan - der kommenden Generation Epyc-Prozessoren - HBM2 als Cache auf dem Package verbaut werden soll.

Bitte beachten Sie: Der Kommentarbereich wird gemäß der Forenregeln moderiert. Allgemeine Fragen und Kritik zu Online-Artikeln von PC Games Hardware sind im Feedback-Unterforum zu veröffentlichen und nicht im Kommentarthread zu einer News. Dort werden sie ohne Nachfragen entfernt.

lastpost-right.png
Zurück zum Artikel: AMD Milan: Gerüchte um HBM2 als Cache
 
AW: AMD Milan: Gerüchte um HBM2 als Cache

Ich glaubs nicht. Für so eine Konfig ist der SP3 schon rein platzmäßig bissl klein, da müssten sie den IO auf die Größe eines CCX reduzieren. Die CCX sind schon auf 7nm und werden sicher nicht noch kleiner. Und mit Strom versorgen muss man das Ganze dann auch noch.

Hört sich für mich einfach zu stark nach einem Hoax an.
 
AW: AMD Milan: Gerüchte um HBM2 als Cache

Warum sollte SP3 dafür zu klein sein?
Auf dem Package sollte sich das ausgehen, so voll ist das ja noch nicht.

Milan ohne HBM2 soll übrigens auch auf einen SI-Interposer kommen, wodurch der Energieverbraucht deutlich sinken sollte und man gleichzeitig die Datenrate zur IOD-beschleunigen könnte.
Die Latenzen würden dadurch auch sinken.

Zumal Semiaccurate im April einen Scherz veröffentlicht hat, der sich ebenfalls mit dem Thema beschäftigt.
How many cores does AMD's Milan have? - SemiAccurate
 
AW: AMD Milan: Gerüchte um HBM2 als Cache

Ein L4-Cache? warum nicht.
HBM2? ........... klar, sicher doch, da hat sich ein troll schön ausgetobt und die "Fachpresse" schluckt auch wirklich alles.
 
AW: AMD Milan: Gerüchte um HBM2 als Cache

Warum sollte SP3 dafür zu klein sein?
Auf dem Package sollte sich das ausgehen, so voll ist das ja noch nicht.
Naja wennn ich mir die Fotos von Rome anschau, beim aktuellen IO passen da sicher nicht mehr als 4 Chiplets drauf. Da fehlen noch 4 für 16. Das bedeutet der IO müsst auf die Hälfte schrumpfen bei doppeltem Speichercontroller.

Ich bin kein Experte, aber glauben tu ich das erst wenn ich es seh, und nicht wegen einem gerücht.
 
AW: AMD Milan: Gerüchte um HBM2 als Cache

Naja wennn ich mir die Fotos von Rome anschau, beim aktuellen IO passen da sicher nicht mehr als 4 Chiplets drauf. Da fehlen noch 4 für 16. Das bedeutet der IO müsst auf die Hälfte schrumpfen bei doppeltem Speichercontroller.
Wenn sie den I/O-Die bei Milan in 7FF und die Chiplets in 7FF+ herstellen, dann sparen sie bei den Chiplets 20% und beim I/O-Die ganze ~60-70% an Fläche ein. Selbst wenn man von etwas weniger ausgeht, weil durch Architekturänderungen mehr Transistoren dazu kommen, sollte der Platz dadurch ausreichen. Vorausgesetzt natürlich, dass sie diese Fertigungsprozesse für diese Teile verwenden ;)

Ich fände es allerdings folgende Konfiguration für HPC und Server mit AI- oder anderweiter GPU-Unterstützung wesentlich interessanter (Ich hoffe ihr verzeiht mir meine grottigen Paint Künste :ugly:):
milan-png.1057765
 

Anhänge

  • milan.png
    milan.png
    10,3 KB · Aufrufe: 437
AW: AMD Milan: Gerüchte um HBM2 als Cache

Selbst bei 12LP für die IOD sparen sie einiges an Fläche;)
Wenn du jetzt bei Globalfoundries 14LP mit 12LP vergleichst, wirst du feststellen, dass der Flächengewinn 0% beträgt, da die Transistoren kleiner aber die Fläche gleich groß bleibt was den möglichen Taktraten zugute kommt, was auch das einzige Ziel dieses Preozesses war :D
Aber es gab doch auch irgendwo inzwischen mal die Meldung, dass 7FF von der Yield her inzwischen die selben Werte wie 16FF erreicht, was die Kosten trotz Shrink annähernd identisch machen Dürfte, wenn das neue I/O-Die als 7FF aufgelegt wird?
 
AW: AMD Milan: Gerüchte um HBM2 als Cache

Du meinst 14LPP?
Und nein, mit 12LP kann man gegenüber 14LPP schon Fläche einsparen!
Aber eigentlich ergibt sich dei kleinere IOD daraus, daß darunter ein SI-Interposer sitzt;)

IOD in 7nm würde ich ausschließen, das ist einfach zu teuer.
 
AW: AMD Milan: Gerüchte um HBM2 als Cache

Unter der Oberfläche vom Rome steckt aber noch das komplette Routing. Es wird schwierig das ganze bei noch mehr Chiplets unterzubringen. Zumindest, wenn sie am aktuellen Package festhalten wollen. (Was ziemlich preisgünstig ist)
 
AW: AMD Milan: Gerüchte um HBM2 als Cache

*freu* wenns dann cpu's mit hbm gibt wäre ich dabei. also fürn ottonormal/dekstopuser.
 
AW: AMD Milan: Gerüchte um HBM2 als Cache

Wenn AMD das wirklich bringen sollte, dann bin ich froh das die mich nicht Ignoriert haben. Und das wäre schon das zweite mal. xD
Zumindest laut meinem Gefühl.
Ich schrieb nämlich bei Facebook als ich dort noch angemeldet war mal zu AMD mit der Frage, warum man die Chips nicht intern kühlt, sprich sich die eigenschaften des Peltier Element zu nutze macht. Nach oben hin sollte die wärme raus kommen, da man diese mit kühler abnehmen kann, und die chipfläche an sich wird mehr gekühlt.

Vor einigen wochen wurde dann berichtet das AMD ein Patent angemeldet hat, und darin is zu sehen, das die Kühlung im chip sogar gewendet werden kann nach oben und oder nach unten.. ob das sinnvoll ist sei einmal dahin gestellt. Aber kommt mir halt sehr bekannt vor, diese idee, des Internen Kühlens.

Eine zweite sache die ich schrieb war.
Warum man HBM nicht als ersatz für DDR speicher nimmt, und oder gleich auf CPU's verbaut, um die Prozessoren allein schon durch den Mega großen speicher zu beschleunigen, dann käme halt ncoh der erhöte daten durchsatz. In kombination mit etwa gleich schnellen ram wie HBM zusätzlich in etwa DDR Slots verbaut, wären so wohl einige bremsen weg. Das einzige anfangsproblem wären halt die Kosten lage, bis sich das ganze für die masse durchsetzt. Allein HBM auf dem CPU als Cache, wäre schon eine extreme verschnellerung. Da auf den CPU schon selbst soviel zwischen gelagert werden könnte, das nur wenig auf ram ausgelagert werden müsste. Der CPU somit viel schneller auf die daten zugreifen kann und dadurch die volle rechen power der CPU kerne druch kommt.

HBM direkt in der CPU inklusive internes Chip Kühlen.... das wäre ein Power up vom feinsten.
Der nachteil von Peltier elementen ist und bleibt aber nach wie vor die höhere Energie die benötigt wird. Also hoffe ich das sie auch die aufsteigende Wärme zu nutzen machen, um die gebrauchte energie zu minimieren, und daher der die internet Peltier elementen schlatung das wechseln pro seite auf warm oder kalt beherscht, um das besser steuern zu können. Denn auch die Problematik der Energie udn wärme hatte ich erwähnt dazu.

ich bin gespannt was sie daraus machen. und wenn sie es wirklich machen, habe ich zwar keinen cent davon das sie meine ideen nehmen... aber ich wäre auf jedenfall happy xD

Daher ja! Ich glaube an den Gerüchten könnte etwas dran sein. Auch wenn das ganze schneller eintreffen würde als erwartet. ^^
 
Zuletzt bearbeitet:
AW: AMD Milan: Gerüchte um HBM2 als Cache

Hm, mich interessiert eigentlich viel mehr, wie man von 80 Kernen, auf 320 Threads kommt - gabs bei SMT eine Änderung - weg von einer Verdoppelung, hin zu einer Vervierfachung - von physischen zu logischen Kernen?!? :what:
 
AW: AMD Milan: Gerüchte um HBM2 als Cache

Hm, mich interessiert eigentlich viel mehr, wie man von 80 Kernen, auf 320 Threads kommt - gabs bei SMT eine Änderung - weg von einer Verdoppelung, hin zu einer Vervierfachung - von physischen zu logischen Kernen?!? :what:


Der Power7 ist 2010 auf den Markt gekommen und besteht aus bis zu acht Kernen, wovon jeder Kern parallel bis zu vier Threads ausführen kann.
 
AW: AMD Milan: Gerüchte um HBM2 als Cache

SMT kann so aufgebaut werden dass es mehr als 2 Threads pro core simuliert. Bringt nur in Ausnahmefällen noch einen Mehrwert, deshalb sah man das bisher sehr selten implementiert. IBMs Power Architektur wurde ja schon genannt, auch Intel hat(te) das mal bei den Xeon Phi.
 
AW: AMD Milan: Gerüchte um HBM2 als Cache

@shootme55
Ein pauschaler Hoax muss es übrigens nicht sein, denn es gibt von AMD ein Patent, dass einen L4-HBM-Cache am IOD skizziert inkl. Cache-Kohärenzprotokoll. Die Frage ist nur, ob man so etwas schon bei Milan oder vielleicht doch erst mit Genoa sehen wird. (Für etwas wie Ryzen 4000 kann man so etwas aufgrund der Kosten vorerst getrost ausschließen.)

Die bisher kommunizierte Verwendung von TSMCs N7+ (nicht zu verwechseln mit N7P) für Zen3 impliziert auch eine Flächenverkleinerung um bis zu 17 %, d. h. man kann durchaus etwas Platz auf dem Package schaffen.

Für Rome war der große 14 nm-IOD schlicht notwendig, da kein Interposer genutzt wurde, sondern der Chip direkt auf das Package-Substrat platziert wurde, d. h. man benötigte eine beträchtliche Chipfläche für die Anbindung der vielen Infinity Fabric-Links der (bis zu) acht CCDs (und Abführung der Speicherkanäle, PCIe-Lanes sowie des CPU-Socket-Interconnects).
Mit einem IOD auf einem Interposer (wie es Tech_Blogger) anmerkte, könnte man den CCD etwas verkleinern 12 oder 10 nm) und damit Platz für HBM-Stacks schaffen. 7 nm erscheinen jedoch wenig wahrscheinlich aufgrund der noch einmal beträchtlich steigenden Zahl der zusätzlichen Signalleitungen (zusätzliche CCDs und HBM-Stacks), das wird einfach zu klein.


@FrozenPie:
Kreative "Tech-Art" (?) aber einen GPU-Core oder (etwas ähnliches) wird man da derzeit wahrscheinlich eher nicht drauf zu sehen bekommen, auch nicht für HPC und AI. Ein etwaiges Konstrukt wäre zu unflexibel und zu speziell und dafür ist AMD noch zu klein. Für den HPC-Bereich sitzt man aktuell an einer völlig neuen Beschleuniger-Architektur, die zwar erneut von Vega abgeleitet wird, jedoch mit einer GPU im klassischen Sinne gar nichts mehr zu tun haben wird (also keinerlei 3D-Fähigkeiten, nur noch reiner Rechenbeschleuniger; die MI60/50 auf Basis von Vega 20 sind dagegen noch reguläre, wenn auch modifizierte, GPUs).

Abgesehen davon ist ein (vergleichsweise durchwachsener) Navi 10-Kern mit derzeit rd. 251 mm2 relativ groß (immerhin so viel Fläche wie 3,4 CCDs). Für HPC wird jedoch immer mehr Leistung angefordert, sodass das One-GPU-Design-for-all-Konzept sich mittlerweile seinem Ende genähert hat. Die zusätzliche Leistung können nur noch spezialisiertere Lösungen erbringen und in diese Kerbe schlägt AMDs Design und auch nVidia's NextGen-Volta, die bei Samsung gefertigt wird.


@Kitsune-Senpai:
Es gibt Gerüchte, dass AMD möglicherweise zukünftig (irgendwann, Zen3, Zen4, Zen5?) die Architketur auf 4-fach-SMT erweitern möchte. IBMs Power9 gibt es in einer 4-fach-SMT-Variante und optional in einer 8-fach-SMT-Variante. x86 und anderen Architekturen begnügten sich bisher i. d. R. mit 2-fach-SMT, weil der zusätzliche Transistorbedarf (Chipfläche) verhältnismäßig gering ist. Höhere Implementationen werden dagegen komplexer.
Zudem wird man i. d. R. für eine effiziente Umsetzung auch mehr Ausführungseinheiten benötigen, denn wenn man nur die verwaltungstechnischen Gegebenheiten schafft, dass der Kern bspw. vier Threads "gleichzeitig" ausführen kann, hat man nur mäßig viel gewonnen. Im ungünstigsten Fall treffen hier so unvorteilhafte Ressourcenansprüche der Threads aufeinander, dass dennoch alle vier nahezu komplett sequentiell abgearbeitet werden müssen. (Es spricht aber natürlich auch nichts gegen einen stufenweisen Ausbau, also bspw. in Zen3 die grundlegende (verwaltungs)Fähigkeit für 4 Thread pro Kern schaffen und vielleicht in Zen4 ein, zwei zusätzliche Funktionseinheiten hinzu, etc.)
Beispielsweise der von amdahl erwähnte Xeon Phi-Rechenbeschleuniger verarbeitete auch grundsätzlich vier Threads pro Pentium-Kern (bis zu 72 Kerne im Xeon Phi 7295). Diese waren auch gewinnbringend einzusetzen, denn ein einzelner Kern verfügte über zwei komplette AVX-512-Vektoreinheiten.


Schlussendlich muss man sich einfach mal überraschen lassen. Milan wird weiterhin den Sockel SP3 bedienen, es bleibt bei PCIe 4.0 und DDR4-Speicher. Etwas mehr Kerne gibt es schon länger in der Gerüchteküche, 4-way-SMT und ein L4-Cache gibt es mittlerweile auch, wobei alles zusammen vielleicht etwas viel für eine Iteration sein könnte. Die Designphase ist übrigens schon abgeschlossen und man sitzt schon unlängst an Zen4 und in einer frühen Phase parallel an der Zen5-Entwicklung.

Die erwähnten "6 HBM Tiles", also 6 Stacks, erscheinen zudem überzogen und klingen schon eher nach einem Aprilscherz, denn der Aufwand für die Implementation eines 6144 Bit-Speicherinterfaces wäre beträchtlich und stände wahrscheinlich in keinem Verhältnis zum effektiven Nutzen. Selbst vier Stacks erscheinen schon etwas hoch, besonders wenn man bedenkt, was sonst noch alles an den IOD angeschlossen werden muss. Mit den kürzlich verfügbar gewordenen HBM2E-Bausteinen von Samsung ließen sich bereits zwei Stacks mit zusammen 16 GiB L4 und einer Bandbreite von 820 GiB/s anbinden, was schon etwa dem vierfachen Hauptspeicherdurchsatz entspricht und der 51-fachen Kapazität aller L3-Caches (in zehn CCDs).
Die aktuelle JEDEC-Spezifikation JESD235B (Dez.'18) definiert als Maximum gar bis zu 12 Lagen und DRAM-Chips mit einer Dichte von 2 GiB, d. h. ein einzelner HBM-Stack könnte bereits maximal 24 GiB Kapazität liefern. Und SK Hynix kündigte bereits für 2020 3,6 Gbps-Chips mit 461 GiB/s pro Stack an.
 
Zurück