AMD CPUs: Speicher-Flaschenhals von MCM-CPUs soll durch ausgelagerte Northbridge umgangen werden

Basti1988 · 2. November 2018

DaStash schrieb:
Ja, vielleicht kommt er ja aus Bayern oder Sachsen?!
Also ich habe es jedenfalls diesmal ganz gut verstanden und ja, es ergibt Sinn.

MfG

Ey lass Bayern ausm Spiel.

gaussmath · 2. November 2018

DaStash schrieb:
Ist es denn gesichert das die Latenz steigt im Mittel? Schließlich musste vorher zwei von 4 DIEs den weg über die anderen DIEs gehen, was dann ja mit der neuen Methode deutlich schneller sein sollte oder?

Rein von der Logik her, muss die Latenz steigen, wenn zusätzliche physische Einheiten dazwischen geschaltet werden, weil der Verwaltungsaufwand steigt. Außerdem werden die Signalwege länger, was die Signalqualität verschlechtert. Man braucht zusätzliche Korrekturinstanzen, wenn die Geschwindigkeit gehalten oder sogar erhöht werden soll. Könnte über Takt usw. kompensiert werden, was aber Energie benötigt.

Das ganze erledigt sich eh, wenn es einen zusätzlichen Die mit IMC geben sollte.

amdahl schrieb:
Eben nicht. Von den 4 dies hatte jeder eine direkte Verbindung per IF zu jedem anderen.

Ja, mit einer Latenz von 200ns. Toll. Das kriegt man der zentralen Verwaltungsinstanz sicherlich auch gebacken.

KnSN · 2. November 2018

Basti1988 schrieb:
Ey lass Bayern ausm Spiel.

BVB vs. FCB - Rein von der individuellen Klasse 0:20 :lol:

DaStash · 2. November 2018

gaussmath schrieb:
Rein von der Logik her, muss die Latenz steigen, wenn zusätzliche physische Einheiten dazwischen geschaltet werden, weil der Verwaltungsaufwand steigt. Außerdem werden die Signalwege länger, was die Signalqualität verschlechtert. Man braucht zusätzliche Korrekturinstanzen, wenn die Geschwindigkeit gehalten oder sogar erhöht werden soll. Könnte über Takt usw. kompensiert werden, was aber Energie benötigt.

Das ganze erledigt sich eh, wenn es einen zusätzlichen Die mit IMC geben sollte.

Ok, nur zum Verständnis, es ist schneller wenn zwei DIEs ohne MC per IF mit den anderen DIEs mit MC kommunizieren als wenn alle den direkten aber im Mittel längeren Weg über den NB chip nehmen?
Also ist der Weg per IF zum anderen DIE gleichlang aber schneller oder kürzer und schneller?

gaussmath schrieb:
Ja, mit einer Latenz von 200ns. Toll. Das kriegt man der zentralen Verwaltungsinstanz sicherlich auch gebacken.

Eben, dass dachte ich ja auch.

MfG

gaussmath · 2. November 2018

DaStash schrieb:
Ok, nur zum Verständnis, es ist schneller wenn zwei DIEs ohne MC per IF mit den anderen DIEs mit MC kommunizieren als wenn alle den direkten aber im Mittel längeren Weg über den NB chip nehmen?
Also ist der Weg per IF zum anderen DIE gleichlang aber schneller oder kürzer und schneller?

Nein, das denke ich nicht. Aber es hat auch keine großen Vorteile gegenüber dem aktuellen Ansatz. Bei einer Sterntopologie kommt es immer drauf an, wie performant die zentrale Einheit ist.

DaStash · 2. November 2018

gaussmath schrieb:
Nein, das denke ich nicht. Aber es hat auch keine großen Vorteile gegenüber dem aktuellen Ansatz. Bei einer Sterntopologie kommt es immer drauf an, wie performant die zentrale Einheit ist.

Ok, vorr. gesetzt die zentrale Einheit ist performant genug, sollte das dann keine relevanten Auswirkungen auf die Desktop CPUs haben oder werden diese in jedem Fall Latenz technisch langsamer, da dort ausschl. interne MCs zum Einsatz kommen, im Vergleich zu TR?

MfG

Casurin · 2. November 2018

Ein externer Speichercontroller kann durchaus sinn machen, die Frage ist - für welches Einsatzgebiet.
Für Threadripper und andere Consumer-CPUs wäre es wahrscheinlich besser wenn jeder Die 1-2 Speicher-Channel hätte (Octa-Channel ftw

). Wenn man dann wirklcih 4 volle Dies hat und die mit uniformen Speicher versorgen oder für Multisockelkommunikation was braucht dann bringt ein extra-Chip schon was.

Prozessorarchitektur schrieb:
Gerüchten zufolge (hardware unboxed) kommen in tsmc 7nm theoretische 5,2ghz erreicht werden real wird eher 4,6 min und max 4,8ghz

Solch schlechte Gerüchte bei HWUB? kann ich nciht glauben. Vor allem da TSMC selbst zu dne 7nm sagt sie hoffen schlussendlich 5 GHz erreichen zu können.

DKK007 schrieb:
Eine Aufstockung der Kerne pro CCX auf 6-8 Kerne war schließlich auch im Gespräch. Damit könnte man dann einen Ryzen 7 2800 mit 12 Kernen erstellen.

Sehr sehr unwahrscheinlich:
AMD hat ja extra die CCX mit 4 Kernen und IF entwickelt um eben die Verschaltung zu vereinfachen. Das ganze jetzt auf 6 kerne Umstellen würde dann ja bedeuten das das IF-Design und die CCX ein Fehler waren.... Ne, entweder man balibt beim IF un den 4 kernen, oder man braucht nochmal eine neue Bus Topologie.

Mephisto_xD schrieb:
Auch wenn das sicher eine Verschlechterung der Latenzen mit sich bringt, würde ich noch nicht die Welt untergehen sehen wollen. Der Speichercontroller sitzt ja nicht wie Anno 2003 mehrere Zentimeter entfernt auf einem ganz anderen Sockel.

Die Distanz ist nicht das Problem - aber JEDE externe Beschaltung bringt zwingend Verzögerungen mit sich. Da ist dann der Kanal ungefähr so:

Bisher:
CPU-IO-Interface => RAM
Gerücht:
CPU-IO-Interface => Northbridge-IO => Northbridge interne logik => Northbridge-RAM-Interface => RAM

Mephisto_xD schrieb:
So etwas kann funktionieren, wenn man es denn gut macht. Bei Intels i7 5775c war der L4 Cache auch auf einem externen Chip, und der hatte bekanntlich eine hervorragende Performance. Auch wenn sich die Latenzen im Vergleich zu den Chips ohne L4 Cache etwas verschlechterten.

Wie du bereits sagtest - der L4 ist ein Cache, der Speichercontroller sitzt da noch immer auf der CPU. Im Cache-controller ist hinterlegt welche Daten im Cache liegen - wenn der festellt das es im L4 liegt dann wird auf den L4 zugegriffen, wenn nicht dann gehts zum RAM - 2 unterschiedliche Kanäle, die Daten werden nicht durch einen Extra-Chip durchgeschleift.

KnSN schrieb:
So ein Blech! Derjenige Typ versteht echt gar nichts!

Sagt der Typ der immer versucht mit großen Worten um sich zu werfen der dann aber immer wieder beweist das er von Grundlagen der Physik keine Ahnung hat.
Wenn du AMD zeigen könntest wie es ihnen möglich sein soll einen weiteren block in den Kanal einzubinden ohne jegliche Schaltzeiten berücksichtigen zu müssen, Routing ohne Logik und keine Kollisionen - dann bitte, tu das. Und hol dir gleich den nobelpreis in Physik und Mathematik ab für das brechen von Naturgesetzen und Grundregeln der Mathematik.

wolflux · 2. November 2018

Ich glaubte AMD müsste aufholen und nicht irgendwelche Verschaltungen kreieren die wiederum verlangsamen.
Verstehe eh nur die Hälfte.

Hofnaerrchen · 2. November 2018

wolflux schrieb:
Ich glaubte AMD müsste aufholen und nicht irgendwelche Verschaltungen kreieren die wiederum verlangsamen.
Verstehe eh nur die Hälfte.

Wenn du eh nur die Hälfte verstehst, wäre es intelligent gewesen, den Kommentar gleich ganz zu lassen.

RyzA · 2. November 2018

Ich kenne mich in der Materie nicht so aus aber wäre ein externer Speichercontroller nicht wieder ein Schritt zurück? :what:

Sowas hat es früher doch auch schon gegeben.
Kann AMD nicht die CCX Latenzen anders senken?

DaStash · 2. November 2018

Headcrash schrieb:
Ich kenne mich in der Materie nicht so aus aber wäre ein externer Speichercontroller nicht wieder ein Schritt zurück?
Sowas hat es früher doch auch schon gegeben.
Kann AMD nicht die CCX Latenzen anders senken?

So wie ich das jetzt verstanden habe senkt AMD nur die Latenzen bei den TR DIEs ohne MC. Bei den DIEs mit MC würde sie sich etwas verlängern, weshalb das Design, so verstehe ich es, bei den Desktop CPUs zu höheren Latenzen führt, da dort jeder DIE, sind ja nur zwei, einen eigenen MC(memory/Speichercontroler) besitzt.

Bitte um Korrektur wenn ich da falsch liege, bin mir nicht so sicher.

MfG

KnSN · 2. November 2018

Headcrash schrieb:
Kann AMD nicht die CCX Latenzen anders senken?

Die Zen-Architektur hat ohnehin schon sehr lange Signallaufzeiten, weil die Cluster sich über lange Wege erstrecken. Daraus resultiert die zu Intels monolithischer Architektur verhältnismäßig hohe Eingangsspannung und demzufolge "niedrig" ist das zu erzielende Taktsignal. Der Integrated Memory Controller ist nicht alles, die Memory Management Unit und der Advanced Programmable Interrupt Controller sind auch noch da. Letzteres macht in der I/O-Performance viel mehr aus. Die Zen-CPUs brauchen das sehr hohe DRAM-Taktsignal gerade deswegen, weil die Speichertransaktionen der Flaschenhals sind.
Wenn schon 14FF 7-mal mehr Memory Transactions umsetzt dann steigt dieser Wert bei 14FF++ auf bis das Zehnfache an. Davon profitieren die Games, vielmehr noch wie sonstige Anwendungenszenarien.
SiSoftware veroeffentlicht Test des Ryzen 7 2700X und Ryzen 5 2600 - Hardwareluxx
AMD hat den Weg gewählt, viele Cluster auf großer Fläche zu verteilen. Das ergibt nun mal Weg gleich Zeit.
Nur ein Vorschlag: AMD hätte die CPUs in höher bauen können anstatt in breiter bzw. länger, per Dual-Stack-Verfahren, so wären alle die sämtlichen Cluster auf einem kleinen Punkt konzentriert, der Speichercontroller nehme eine zentrale Funktion inmitten dieser Layer ein.

geist4711 · 2. November 2018

die DIE's zu 'stacken' statt nebeneinander zu platzieren, erschwert die kühlung, mindestens der unteren DIE's im stack....
von daher macht 'nebeneinander ehr sinn.
den IF zu beschleunigen, oder einen speicherkontroler in der cpu einzeln dazuzusetzen, könnte ein guter ansatz sein.
AMD's forschungsabteilung dürfte da näheres wissen, mehr als wir.

KnSN · 2. November 2018

@geist4711
Das ist mir bewusst, auch dass der Layer an der oberen Position einen längeren Signalweg zu den Kontakten nimmt. Das lohnt eher bei optischen Schaltungen. So oder so - Der Königsweg bietet sich nicht.

wolflux · 2. November 2018

Hofnaerrchen schrieb:
Wenn du eh nur die Hälfte verstehst, wäre es intelligent gewesen, den Kommentar gleich ganz zu lassen.

Das Gleiche könnte ich jetzt auch sagen.
Intelligenter wäre es gewesen, nicht zu schreiben was ich schon weiß, sondern es zu erklären. Danke für gar nichts :ugly:

KnSN schrieb:
Die Zen-Architektur hat ohnehin schon sehr lange Signallaufzeiten, weil die Cluster sich über lange Wege erstrecken. Daraus resultiert die zu Intels monolithischer Architektur verhältnismäßig hohe Eingangsspannung und demzufolge "niedrig" ist das zu erzielende Taktsignal. Der Integrated Memory Controller ist nicht alles, die Memory Management Unit und der Advanced Programmable Interrupt Controller sind auch noch da. Letzteres macht in der I/O-Performance viel mehr aus. Die Zen-CPUs brauchen das sehr hohe DRAM-Taktsignal gerade deswegen, weil die Speichertransaktionen der Flaschenhals sind.
Wenn schon 14FF 7-mal mehr Memory Transactions umsetzt dann steigt dieser Wert bei 14FF++ auf bis das Zehnfache an. Davon profitieren die Games, vielmehr noch wie sonstige Anwendungenszenarien.
SiSoftware veroeffentlicht Test des Ryzen 7 2700X und Ryzen 5 2600 - Hardwareluxx
AMD hat den Weg gewählt, viele Cluster auf großer Fläche zu verteilen. Das ergibt nun mal Weg gleich Zeit.
Nur ein Vorschlag: AMD hätte die CPUs in höher bauen können anstatt in breiter bzw. länger, per Dual-Stack-Verfahren, so wären alle die sämtlichen Cluster auf einem kleinen Punkt konzentriert, der Speichercontroller nehme eine zentrale Funktion inmitten dieser Layer ein.

Das ist gut erklärt :daumen:

empy · 2. November 2018

Das ganze passt weder sonderlich gut zu "infinity" noch zu "fabric". Für einen hohen Gesamtdurchsatz sollte die Lösung aber gut funktionieren. Einzelne Threads werden davon aber vermutlichnicht schneller laufen, aber dafür sind die CPUs ja auch nicht gemacht und die Probleme mit der Skalierung werden vermutlich in der Größenordnung an Chips, die man auf so ein Substrat packen kann nicht auftreten.

Eigentlich schon witzig, wie sich, nachdem alles immer mehr in Richtung SoC ging, das ganze jetzt wieder umkehrt.

gaussmath · 2. November 2018

@KnSN: Das mit den Memory Transactions ist so eine Sache. Eigentlich ist das für die Praxis nicht relevant, weil diese spezielle Implementierung der Intel CPUs von keiner Anwendung genutzt wird. Mir ist zumindest kein Fall bekannt. Es wird eigentlich nur in synthetischen Benchmarks genutzt.

KnSN · 2. November 2018

@gaussmath
Welche "spezielle Implementierung"?

Diese Speichertransaktionen sind die Übertragung zwischen DRAM, CPU und anderen Komponenten über den VDDQ-VPP und VDDQ-VTT und für diese sind die Steuerspannungen vorrangig.
Die Zen-Architektur unterstützt eine neue Funktion des DDR4-SDRAM, "Gear-down Mode" genannt, welcher die Transaktionsraten "C/C/A" im Level-1-Transactions-Mode (1T) reguliert. Im Grund genommen gestattet dieser Modus, dass der Speichercontroller mit wenigen angesteuerten Registern sein Taktsignal in hoch aufrechterhält, indem die Transaktionen per Register reguliert werden. Dadurch wird das hohe Taktsignal auch bei einer niedrigeren Steuerspannung stablisiert, weil in nur die Transaktionen des Speichercontrollers zum DRAM reguliert sind. Der 1T-Modus stabilisiert den Speichercontroller, weil die meisten Transaktionen in diesem Modus von dem DRAM gesteuert werden. Darum der 1T-Modus. Doch in diesem Modus kann der DRAM nur noch n weniger Taktsignal aufbringen, weil ihm die zusätzlichen Steuerspannungen, diese im 2T und 3T-Modus der Speichercontroller aufbringe, überfordern. Es geht konsequent darum den Speichercontroller UND den DRAM von diesen Steuerspannungen zu entlasten - es senkt sogleich die Spannung der CPU. SO kann der DRAM auch im 1T ein hohes Taktsignal halten, obwohl der Speichercontroller ihm um die Aufgabe der zu bewältigenden Ansteuerungen der Register nicht entlastet. Wie geht das also? Das habe ich zuvor erwähnt: Indem die Transaktionen zurückgefahren werden. So gesehen kann der DRAM seine Steuerspannung dynamisch regulieren, im Verhältnis zu der ihm zugewiesen Betriebsspannung, ohne zu destabilisieren. Wa ist die Konsequenz daraus? Nun ja - Die Regulation der Speichertransaktionen reduziert die zu übertragenden Datenpakete. Im Grunde genommen reduziert sich die Speicherleistung zur CPU, in umgekehrt auch, aber swohl IMC als auch DRAM müssen nur einen Bruchteil der eigentlichen Spannung aufbringen, um das hohe Taktsignal zu halten, indem die Interrupte der Datenpakete angeglichen werden, diese aufgrund dem gehaltenen Taktsignal gleich lang sind, andernfalls verlaufen diese sogenannten I/O Request Packets in zu je beiden Richtungen asynchron, eine abnorme Assimilation in den Signallängen. Genau das führt in anderen und in einem jeden früheren Sysem zu der bekannten Instabilität, wenn nach geänertem Bustakt bzw. Systemtakt der Burstrate und Baudrate die Signallängen nicht synchron verlaufen. Der Gear-down Mode ist sozusagen eine Revolution, weil er den DRAM auch dann auf hohen Touren bringen kann (dem Taktsignal betreffend), selbst dann wenn der Speichercontroller für diese erhöhten Steuerspannungen nicht aufkommt. Was im 1T-Modus enorm ist, nicht umsonst sind die DIMMs in so konfiguriert, dass sie ihr hohes Taktsignal lediglich im 2T-Modus aufbringen - weil der Speichercontroller für diese zusützliche Belastung aufkommt. Aber diese zusätzlich Belastung geht zulasten der Betriebsspannung der CPU, diese steigt mit ihr an, damit sie aufgewendet werden kann. Ich hatte den AMD Ryzen 5 1600X mit verschiedenen Taktsignalen beobachtet, auch mit und ohne den Gear-down Mode, insoweit es möglich gewesen ist: Die Differenz aus 2.400 und 3.000 MHz hat aufgerundet 90 mV in der VID ergeben, in höher - maximal 3.200 MHz - ging das Taktsignal einzig mit dem Gear-down-Mode. Es bedeutet, dass die CPU-Spannung relativ um 10 bis 15 mV pro 100 MHz des DRAM anwächst. Diese Spannung fehlt der CPU andererseits, OC-Resultat, Turbo-Modus. Die zusätzliche Spannung erhöht die Temperatur. Und vergessen wir nicht, dass Zen-CPUs sich schnell gen 1.5 V bewegen. Das reduziert also das zu erzielende OC-Resultat, erhöht die Temepratur der CPU und limitiert den Speichercontroller, in noch mehr Taktsignal zu erbringen, weil er auch mit jeder zunehmenden Spannung seinen Zenit näher kommt. Der Gear-down Mode ist somit der Königsweg, um ein hohes DRAM-Taktsignal zu ermöglichen, ohne dass der IMC frühzeitig an seine Grenzen gerät, indem ganz einfach die Speicherinterrupte (den Transaktionsraten betreffend) reguliert werden. Er ergänzt die Modi 2T und 3T, bei denen der DRAM entlastet wird, ohne jedoch dem IMC einen zu großen Teil der Arbeit aufzuwälzen. Man büßt ein bisschen U/O-Performance ein zugunsten von einer hohen Stabilität.

gaussmath · 2. November 2018

Der synthetische Memory Transaction Test von SiSoftware Sandra basiert auf speziellem Transactional Memory Support (Transactional Synchronization Extensions bei Intel). Daher der große Unterschied. In der Praxis spielt das so gut wie keine Rolle. Ich glaube sogar, das ist ziemlich buggy... :huh:

Edit: Kann sogar sein, dass Zen 2 eine eigene Implementierung für Transactional Memory Support verpasst bekommt. Hoffen einige zumindest. So ganz verstehe ich es nicht, da es im Grunde nicht verwendet wird.

PCGH_Torsten · 2. November 2018

DaStash schrieb:
Ist es denn gesichert das die Latenz steigt im Mittel? Schließlich musste vorher zwei von 4 DIEs den weg über die anderen DIEs gehen, was dann ja mit der neuen Methode deutlich schneller sein sollte oder?

MfG

Wenn diese Theorien eines Twitter-Nutzers zutreffen und wenn AMD für die Chip-Chip-Kommunikation das gleiche IF nutzt, wie heute auf Threadripper, dann müssen die Latenzen im Schnitt steigen. Bislang lautet die Anbindung für 50 Prozent der Kerne "Kern=>MC=>RAM" und für die anderen 50 Prozent "Kern=>IF zu anderem Die=>MC=>RAM". Die Schaubilder zeigen Topologien in denen alle Kerne das letztgenannte, langsamere Schema nutzen müssen. Man beachte auch, dass Epyc – um dessen Nachfolge es hier geht – einen aktivierten Speicher-Controller in jedem Die hat; hier die Quote der direkt angebundenen Kerne also von 100 Prozent auf 0 Prozent fallen würde. Eine weitere Bremse wäre die Kommunikation zwischen den Kernen. Bislang ist jeder Die über einen IF-Link mit jedem anderen direkt verbunden. Bei einer Sterntopologie würde auch die Kommunikation innerhalb der CPU immer zwei Hops erfordern und außerdem immer mit den RAM-Zugriffen um Datentransferrate konkurrieren, was aktuell nur in einem Drittel der Fälle so ist.

DaStash schrieb:
Ok, vorr. gesetzt die zentrale Einheit ist performant genug, sollte das dann keine relevanten Auswirkungen auf die Desktop CPUs haben oder werden diese in jedem Fall Latenz technisch langsamer, da dort ausschl. interne MCs zum Einsatz kommen, im Vergleich zu TR?

MfG

Wenn AMD von der aktuellen Architektur auf Compute Dies ohne internen Speicher-Controller wechselt, dann müssten auch davon abgeleitete Desktop-Prozessoren einen externen Controller erhalten. Zusätzliche Latenzen zu vermeiden wäre in diesem Fall technisch und energetisch aufwendig und die Zen-Prozessoren sollen schon heute einen vergleichsweise großen Teil ihres Energiebudgets in Interconnects investieren. Wenn AMD auch in Zukunft monolithische Mainstream-CPUs baut, dann haben diese wohl andere Eigenschaften als die Zen2-Gerüchte der letzten Tage. Hoffentlich für Gamer bessere. ;-)

AMD CPUs: Speicher-Flaschenhals von MCM-CPUs soll durch ausgelagerte Northbridge umgangen werden

Freizeitschrauber(in)

gaussmath

Guest

Gesperrt

PCGH-Community-Veteran(in)

gaussmath

Guest

PCGH-Community-Veteran(in)

BIOS-Overclocker(in)

Lötkolbengott/-göttin

Freizeitschrauber(in)

PCGH-Community-Veteran(in)

PCGH-Community-Veteran(in)

Gesperrt

Software-Overclocker(in)

Gesperrt

Lötkolbengott/-göttin

Volt-Modder(in)

gaussmath

Guest

Gesperrt

gaussmath

Guest

Community Manager

Ähnliche Themen