AW: AMD Milan: Gerüchte um HBM2 als Cache
@shootme55
Ein pauschaler Hoax muss es übrigens nicht sein, denn es gibt von AMD ein Patent, dass einen L4-HBM-Cache am IOD skizziert inkl. Cache-Kohärenzprotokoll. Die Frage ist nur, ob man so etwas schon bei Milan oder vielleicht doch erst mit Genoa sehen wird. (Für etwas wie Ryzen 4000 kann man so etwas aufgrund der Kosten vorerst getrost ausschließen.)
Die bisher kommunizierte Verwendung von TSMCs N7+ (nicht zu verwechseln mit N7P) für Zen3 impliziert auch eine Flächenverkleinerung um bis zu 17 %, d. h. man kann durchaus etwas Platz auf dem Package schaffen.
Für Rome war der große 14 nm-IOD schlicht notwendig, da kein Interposer genutzt wurde, sondern der Chip direkt auf das Package-Substrat platziert wurde, d. h. man benötigte eine beträchtliche Chipfläche für die Anbindung der vielen Infinity Fabric-Links der (bis zu) acht CCDs (und Abführung der Speicherkanäle, PCIe-Lanes sowie des CPU-Socket-Interconnects).
Mit einem IOD auf einem Interposer (wie es Tech_Blogger) anmerkte, könnte man den CCD etwas verkleinern 12 oder 10 nm) und damit Platz für HBM-Stacks schaffen. 7 nm erscheinen jedoch wenig wahrscheinlich aufgrund der noch einmal beträchtlich steigenden Zahl der zusätzlichen Signalleitungen (zusätzliche CCDs und HBM-Stacks), das wird einfach zu klein.
@FrozenPie:
Kreative "Tech-Art" (?) aber einen GPU-Core oder (etwas ähnliches) wird man da derzeit wahrscheinlich eher nicht drauf zu sehen bekommen, auch nicht für HPC und AI. Ein etwaiges Konstrukt wäre zu unflexibel und zu speziell und dafür ist AMD noch zu klein. Für den HPC-Bereich sitzt man aktuell an einer völlig neuen Beschleuniger-Architektur, die zwar erneut von Vega abgeleitet wird, jedoch mit einer GPU im klassischen Sinne gar nichts mehr zu tun haben wird (also keinerlei 3D-Fähigkeiten, nur noch reiner Rechenbeschleuniger; die MI60/50 auf Basis von Vega 20 sind dagegen noch reguläre, wenn auch modifizierte, GPUs).
Abgesehen davon ist ein (vergleichsweise durchwachsener) Navi 10-Kern mit derzeit rd. 251 mm2 relativ groß (immerhin so viel Fläche wie 3,4 CCDs). Für HPC wird jedoch immer mehr Leistung angefordert, sodass das One-GPU-Design-for-all-Konzept sich mittlerweile seinem Ende genähert hat. Die zusätzliche Leistung können nur noch spezialisiertere Lösungen erbringen und in diese Kerbe schlägt AMDs Design und auch nVidia's NextGen-Volta, die bei Samsung gefertigt wird.
@Kitsune-Senpai:
Es gibt Gerüchte, dass AMD möglicherweise zukünftig (irgendwann, Zen3, Zen4, Zen5?) die Architketur auf 4-fach-SMT erweitern möchte. IBMs Power9 gibt es in einer 4-fach-SMT-Variante und optional in einer 8-fach-SMT-Variante. x86 und anderen Architekturen begnügten sich bisher i. d. R. mit 2-fach-SMT, weil der zusätzliche Transistorbedarf (Chipfläche) verhältnismäßig gering ist. Höhere Implementationen werden dagegen komplexer.
Zudem wird man i. d. R. für eine effiziente Umsetzung auch mehr Ausführungseinheiten benötigen, denn wenn man nur die verwaltungstechnischen Gegebenheiten schafft, dass der Kern bspw. vier Threads "gleichzeitig" ausführen kann, hat man nur mäßig viel gewonnen. Im ungünstigsten Fall treffen hier so unvorteilhafte Ressourcenansprüche der Threads aufeinander, dass dennoch alle vier nahezu komplett sequentiell abgearbeitet werden müssen. (Es spricht aber natürlich auch nichts gegen einen stufenweisen Ausbau, also bspw. in Zen3 die grundlegende (verwaltungs)Fähigkeit für 4 Thread pro Kern schaffen und vielleicht in Zen4 ein, zwei zusätzliche Funktionseinheiten hinzu, etc.)
Beispielsweise der von amdahl erwähnte Xeon Phi-Rechenbeschleuniger verarbeitete auch grundsätzlich vier Threads pro Pentium-Kern (bis zu 72 Kerne im Xeon Phi 7295). Diese waren auch gewinnbringend einzusetzen, denn ein einzelner Kern verfügte über zwei komplette AVX-512-Vektoreinheiten.
Schlussendlich muss man sich einfach mal überraschen lassen. Milan wird weiterhin den Sockel SP3 bedienen, es bleibt bei PCIe 4.0 und DDR4-Speicher. Etwas mehr Kerne gibt es schon länger in der Gerüchteküche, 4-way-SMT und ein L4-Cache gibt es mittlerweile auch, wobei alles zusammen vielleicht etwas viel für eine Iteration sein könnte. Die Designphase ist übrigens schon abgeschlossen und man sitzt schon unlängst an Zen4 und in einer frühen Phase parallel an der Zen5-Entwicklung.
Die erwähnten "6 HBM Tiles", also 6 Stacks, erscheinen zudem überzogen und klingen schon eher nach einem Aprilscherz, denn der Aufwand für die Implementation eines 6144 Bit-Speicherinterfaces wäre beträchtlich und stände wahrscheinlich in keinem Verhältnis zum effektiven Nutzen. Selbst vier Stacks erscheinen schon etwas hoch, besonders wenn man bedenkt, was sonst noch alles an den IOD angeschlossen werden muss. Mit den kürzlich verfügbar gewordenen HBM2E-Bausteinen von Samsung ließen sich bereits zwei Stacks mit zusammen 16 GiB L4 und einer Bandbreite von 820 GiB/s anbinden, was schon etwa dem vierfachen Hauptspeicherdurchsatz entspricht und der 51-fachen Kapazität aller L3-Caches (in zehn CCDs).
Die aktuelle JEDEC-Spezifikation JESD235B (Dez.'18) definiert als Maximum gar bis zu 12 Lagen und DRAM-Chips mit einer Dichte von 2 GiB, d. h. ein einzelner HBM-Stack könnte bereits maximal 24 GiB Kapazität liefern. Und SK Hynix kündigte bereits für 2020 3,6 Gbps-Chips mit 461 GiB/s pro Stack an.