AMD Zen 2: Rome soll acht 8-Kern-Chiplets mit 256 MiByte L3-Cache nutzen

Ein Vorteil dieses Ansatzes ist, dass alles Cores jetzt den selben Abstand zum Controller haben und kein Core mehr über einen anderen Core auf den Controller zugreifen muss.

Die maximale Latenz wird sich veringern, da bin ich mir sicher.
Es kann aber gut sein das die minimale Latenz nicht mehr erreicht wird.
Am Ende rechne ich damit, dass durch einheitliche Signalwege und die dadurch einfacher zu gestaltende Auslastung, dieser Ansatz performanter und weniger Systemlastig ist, da nur noch eine CPU erkannt werden soll.

Vielleicht findet sich die Latenz ja um unteren Drittel des jetzigen Spectrums.
Damit wäre sie einserseits kürzer und andererseits länger :D
 
Zuletzt bearbeitet:
Ein Vorteil dieses Ansatzes ist, dass alles Cores jetzt den selben Abstand zum Controller haben und kein Core mehr über einen anderen Core auf den Controller zugreifen muss.

Dann braucht AMD aber zwei separate Designs, einmal für den Servermarkt mit getrenntem IOX und für den Desktop Markt das alte Prinzip.

Da das keine gute Kostenstrategie ist, kann man das eigentlich als Spekulatius-Müll begraben.
 
Wenn AMD auf solch einen Chiplets+Controller-Aufbau setzt, dann nur im Serverbereich.

Im Desktop bedeutet das Design deutliche Leistungsverluste durch noch höhere Latenzen - selbst mit meinem bis an die Kotzgrenze frisiertem RAM-Timing-Setup erreiche ich nicht mal annähernd die Zugriffslatenzen wie von einer aktuelle Intel-CPU.
Besonders in Spielen bedeutet das erhebliche Leistungsnachteile. Auch dürfte das deutliche Anpassungen an der Software benötigen. Und ich kann mir auch nicht vorstellen, dass solch ein Aufbau überhaupt sonderlich hoch takten könnte.

Im Desktop erwarte ich weitere Steigerungen der Kernzahlen durch größere CCX (8+8 Kerne bzw. 8 Kerne + iGPU) - dürfte durch 7nm kein Problem sein.
Und bei Servern einen zweiten Die ohne Speicher- und PCIe-Controller, per IF angebunden an einen dicken Controller-Die, welcher das Speicherinterface und (viele) PCIe-Lanes zur Verfügung stellt. EDIT: Denn hier sind die Zugriffszeiten durch den ganzen Buffered-Registered-ECC-Kram eh nicht so pralle...
 
Zuletzt bearbeitet:
Wenn ich das Laut chiakokhua richtig verstehe, könnte der Ryzen 3xxx nur noch mit einem CCX ausgestattet.
https://twitter.com/chiakokhua/status/1055297679725481984/photo/1?ref_src=twsrc^tfw|twcamp^tweetembed|twterm^1055297679725481984&ref_url=https%3A%2F%2Fwww.computerbase.de%2F2018-10%2Fcpu-amd-epyc-2-rome-chip%2F
Da wird der EPYC (Rome) im 8 CCX und 2 CCX erklärt.
Aber mal abwarten was da bald kommt.
 
War das nicht eher hinderlich für die Performance bevor die in den Prozessor gewandert sind? War doch beim Athlon XP schon so das die Controller integriert bessere Leistung gebracht haben, oder?

Der Athlon XP war AMDs letzte reine CPU mit allen Controllern extern, aber ja: Der Hauptvorteil des Athlon 64 gegenüber dem XP bestand im integrierten Speicher-Controller. Böse Zungen behaupten sogar, die Kerne wären ansonsten quasi identisch und "nur" auf 64-Bit aufgebohrt gewesen. (Was zwar technisch aufwendig ist, in Destkop-Anwendungen zu Lebzeiten der Athlon 64 aber keine Rolle spielte.)
Der Performance-Sprung war auf jeden Fall gewaltig und auch wenn Intel mit der Core-2-Sockel-775-FSB-Plattform noch einige Jahre bewiesen hat, dass man auch mit externen Controllern schnelle PCs bauen kann, machte auch hier der Core i noch einmal einen großen Sprung weil er höher integriert war.
(Funfact: Sehr frühe Gerüchte berichteten über eine Low-End-Core-i-Sockel mit externer Northbridge und tatsächlich hatten die Clarkdale-Core-i3 später tatsächlich einen getrennten I/O-Chip unter dem Heatspreader. Für die leistungsfähigen Modelle hat Intel aber offensichtlich einen großen Bogen um die Lösung gemacht und lieber vollintegrierte Designs gefertigt.)


Latenz: Zeitverzögerung; Kurze Leitung: Kurze Verzögerung; Lange Leitung: Lange Verzögerung. Es geht hier um Nanosekunden. Und das macht einen großen Unterschied, wie man an den Dies ohne MC auf den Threadripper-WX sehen kann.

Die reine Laufzeit an sich spielt bei den Entfernungen innerhalb eines Chips noch keine große Rolle. Aber die Signalqualität. Das heißt zum einen Unterschiede in der Laufzeit einzelner Signale, vor allem aber das Verhältnis aus Signal- und Rauschpegel. Ersterer wird mit zunehmender Leitungslänge (und insbesondere bei Übergängen von Chips zu PCB und zurück) deutlich schwächer, letzterer deutlich stärker. Ein Interface für große Entfernungen ist deswegen entweder stromhungriger, langsamer oder mit viel mehr latenzbringenden Fehlerkorrekturmechanismen respektive Sicherheitsreserven ausgestattet als ein Gegenstück innerhalb eines Chips.


Wenn überhaupt macht das meiner Meinung nach mit einem aktiven Interposer bzw. Bridge Chiplet Sinn, welches dann einen Switch, die MCs und das IO enthält, wie ich an anderer Stelle schon mehrfach gesagt habe. Das müsste dann mindestens einen 3.2 TBit/s Switch mitbringen (8x CPU Die per 100 GBit/s, 4x DDR5 Dual Channel per 100 GBit/s. 8x PCIe 4.0 x16/xGMI per 50 GBit/s), plus eventuell noch mehr. Um die Latenzen möglichst gering zu halten, und um das Bridge Chiplet/den Interposer möglichst klein zu halten könnte ich mir so ein Layout vorstellen:

qatsn7k-jpg.1017605


Edit: Wenn sich die Form des Sockel ändert, und die der Dies, könnte man die Dies natürlich besser quadratischer machen, und die Anordnung noch sternförmiger.

Wenn man Bilder aus fremden Quellen übernimmt, sollte man diese zumindest nennen.
:daumen2:


Wäre das nicht äußerst aufwenig?
Ich produziere also so viele CCX-Chiplets wie geht OK!
Für Ryzen brauche ich einen kleinen IOX
(Bei der größte des Designs wäre das wohl eher blödsinn, den Chip zu splitten.)
Für Epic/TR brauche ich einen großen IOX.

Für mich klingt nach zu vielen Nachteilen ggü dem aktuellen Design: jeder Chip zählt (und wird verkauft)

Es ist eine Kompromiss-Frage. Wenn der I/O-Chip nur wenige, simple Funktionen erfüllen muss, kann er in einem alten, billigen Fertigungsprozess hergestellt werden und braucht nur wenig Entwicklungsarbeit. Mehrere derartige Chips wären also nicht unbedingt teuer, da sehe ich eher Probleme beim Package und den Fertigungsstraßen. Umgekehrt sind kleinere Dies irgendwann pro Transistor kaum noch billiger als ein größerer. Man hat zwar bessere Yield-Raten, aber dafür auch mehr Verschnitt, mehr Handlingkosten und vor allem immer mehr Interconnects zwischen den ganzen Dies, deren Controller zusätzlich Platz fressen.


Was passiert denn, wenn dieser Interposer oder Controller Chip, Cache mitbringt?
Auf den Fotos sieht der der ein bischen groß aus für nur einen Speichercontroller mit PCIE Anbindungen.

Es gibt bislang keine Fotos, nur Vermutungen.
Und je komplexer der Chip ist, desto teurer wird er, desto größer ist die Gefahr eines Defektes und desto mehr Wärme entwickelt er. Intel hat beispielsweise schon vor über einem Jahrzehnt einen Forschungschip gezeigt, der den Cache auf einem zweiten Die auf der Rückseite trägt. High-End-x86-CPUs wären so aber kaum zu kühlen und ein derartiger Cache-Chip wäre fast so teuer, wie der eigentliche Prozessor selbst. Einen einfacher Interposer von der Größe eines Enthusiast-Prozessors, aber nur mit Datenleitungen versehen, sitzt dagegen auf jeder 400-Euro-Vega-Grafikkarte.
 
Indem das aktuelle Design beibehalten wird, die Caches verdoppelt werden und 8Kerne pro CCX verbaut werden.

Genauso wie bisher spekuliert.
Ein eigenes Die für den Fabric Controller... die müssen was geraucht haben.

Und dann nehmen sie den Chip, legen ihn auf einen Rechenschieber und addieren einfach auf 10GHz. Wow hoffentlich liest das AMD und heuert mich an.


Ernsthaft. Wenn es so einfach und nicht besser als die Gerüchte wäre, warum sollten sie es dann nicht so machen?

Es sind alles gerüchte, ja. Aber für mich macht das komplett Sinn.

Zen war das Experiment des Chiplet-designs. Das wird jetzt nun für Server und Desktop jeweils optimiert und angepasst.

Ich bin mir ziemlich sicher, dass ein eigener Die für den Desktop kommt, alles andere wäre von den Latenzen und Kosten nicht vertretbar.

Dafür haben die Server-CPUs dann alle die selben Latenzen - alle verf***ten 64 Kerne.
 
Der Performance-Sprung war auf jeden Fall gewaltig und auch wenn Intel mit der Core-2-Sockel-775-FSB-Plattform noch einige Jahre bewiesen hat, dass man auch mit externen Controllern schnelle PCs bauen kann, machte auch hier der Core i noch einmal einen großen Sprung weil er höher integriert war.
(Funfact: Sehr frühe Gerüchte berichteten über eine Low-End-Core-i-Sockel mit externer Northbridge und tatsächlich hatten die Clarkdale-Core-i3 später tatsächlich einen getrennten I/O-Chip unter dem Heatspreader. Für die leistungsfähigen Modelle hat Intel aber offensichtlich einen großen Bogen um die Lösung gemacht und lieber vollintegrierte Designs gefertigt.)
Sicher, dass der zweite Chip bei den Clarkdale-i3 nicht eher durch die iGP bedingt ist? Laut Wikipedia ist der I/O-Kram im CPU-Die mit drin...
Denn die Sockel 1156-Dual Cores auf Clarkdale-Basis hatten im Gegensatz zu den Quad-Cores eine iGP an Bord (die Clarkdales waren im Grunde ver"desktoptisierte" Notebook-CPUs)...
Clarkdale (microprocessor) - Wikipedia

Und was den Sockel 775 angeht: Wenn du dir die Teile heute im Vergleich zu den Phenom II-CPUs anschaust sind die alles, aber nicht schnell - ganz im Gegenteil. Die Verrecken gnadenlos am grottenlahmen FSB, der alleine durch DDR2 voll ausgelastet werden kann. Da kommt dann ja noch PCIe-Last und bei den Core 2 Quads noch die Die <> Die-Kommunikation hinzu. Die Limits sind damals einfach dank der lahmen restlichen Hardware nicht aufgefallen.
 
War das nicht eher hinderlich für die Performance bevor die in den Prozessor gewandert sind? War doch beim Athlon XP schon so das die Controller integriert bessere Leistung gebracht haben, oder?

Der Athlon XP (K7) hatte den Speichercontroller noch nicht integriert. Das fing mit dem Athlon 64 (K8) an, wenn mich nicht alles täuscht. ;).
 
Zuletzt bearbeitet:
Hört sich interessant an. Würden die das auch mit zukünftigen GPUs machen/schaffen, wäre das schon fast eine Art neuer heiliger Gral.
 
Warum...wofür ??
Na für Taskmanager/Cinebench P0rn :D

Im Ernst, fürs Streaming wären viele Kerne natürlich klasse, H.264/5 skalieren sogar noch bis zu ~20 Kernen hoch - für jeden Frame wohlgemerkt. Wobei solche Leute wohl eher kein Problem haben etwas mehr Geld in ein entsprechendes Threadripper/i9 System zu investieren.

Ansonsten fallen mir nur noch Sachen ein, die kaum jemand zu Hause macht: CAD (Simulation), Kompilieren großer Projekte (Linux Kernel z.B.), SETI & Co., Rendern, schneiden großer Videos...

Für den längsten Balken in CS:GO werden 16 Kerne wohl eher nicht sorgen.
 
Ist das nicht sexy, wie sie die Chips in der Hand hält? Oh Gott Leute, was ist los mit mir? :wow:

Ich mag Lisa Su und respektiere sie wirklich, aber wegen dem großen Foto-Posting von RawMangoJuli und deinem Kommentar, kann ich mich nicht schwer gar nicht zurückhalten... :D

Nach dem netten Handjob von ihr hoffe ich auf ein schönes "Happy End"... von Rome natürlich^^
 
Zurück