AMD Ryzen 3000: Zen 2 braucht keine neuen Software-Optimierungen

Hm OK, um die Latenzen braucht sich keiner sorgen machen einfach ht/smt abschalten. Dann schwubs sinken die Latenzen. Das gibt dann einen ordentlichen Performance Schub in Spielen. Denn 16 Kerne sind ja schließlich nicht wenig. Das machen wir dann bei allen CPUs ab 8 Kernen und schon sieht die Welt wieder besser aus. Nun gut bei 6 Kerner und weniger da kann man ht /smt ruhig an lassen weil sie sonst zu weit absaufen würden bei der Leistung in form von Anwendungen und bei Spielen ja auch.
 
Genau, jetzt kann es endlich losgehen... hier mal ne News aus März 2018, als die Erwartungen stiegen, weil Intel den Markt mit nem 8Kerner "beleben" wollte. LINK

Das Gerede gibts schon seit Jahren... mittlerweile schmeißt man Spiele im Pre-Alpha Status auf den Markt, weil man Geld verdienen muss. Da ist die Hoffnung auf aufwendige Mehrkernoptimierungen ein wenig, nunja, optimistisch. Sowas kostet nämlich richtig Geld und wird auf die Masse nur wenigen % Nutzern einen Vorteil bringen. Wenn dieser Aufwand aber für die restlichen 80% Spieler nicht nutzbar ist, entfallen solche Optimierungen mit Blick aufs Budget.

Realität kann ja so grausam sein.
[...]

Spielt aber im Grunde genommen keine Rolle, da mehr Kerne auf Basis der gleichen Architektur am einfachsten umzusetzen sind, um die Gesamtrechenleistung zu steigern. Die Zeiten, in denen ausschließlich über die Taktfrequenz skaliert wird, sind seit 15 Jahren vorbei und jedes Jahr eine neue CPU-Architektur aus dem Boden zu stampfen kann sich kein Schwein leisten. Intel hat in den letzten Jahren die Gesamtrechenleistung auch ausschließlich über die Anzahl an Kernen skaliert und indem man über die Taktbrechstange noch ein paar Megahertz rausquetschen konnte, indem man die Definition der TDP aufgeweicht hat. Aber eigentlich hat sich auch bei denen seit 2017 wenig getan, seitdem macht man es im Grunde ähnlich wie AMD und bietet schlicht mehr Kerne für's Geld.
Früher oder später wird es für die Spielehersteller keine andere Möglichkeit mehr geben, als massiv auf Multithreading zu setzen. Der Grund dafür ist einfach: es ist absehbar, dass die Anzahl an Threads steigt, da es schlicht sinnvoll ist, die durch den Miniaturisierungsprozess freigewordene Fläche und Verlustleistung durch mehr Recheneinheiten auszugleichen und so die Gesamtrechenleistung zu steigern, und da es aufgrund physikalischer Beschränkungen halt nicht absehbar ist, dass morgen 20,0 GHz-Vierkerner um die Ecke kommen, die schneller rechnen, als heutige Achtkerner.
gRU?; cAPS
 
Wenn man bedenkt das es wohl noch ein halbes Jahr zeit ist bis dahin, kann jetzt schon gut optimiert werden dafür. ;)

Eines ist sicher, es bleibt Spannend! Mehr kann man zu Ryzen 3000 noch nicht sagen. Und eben das ein Ryzen 3000 8 Kerner bei gleichen Rahmenbedingen einen 9900K im CB15 leicht schlägt. Aber was wissen wir mehr? Gar nichts!

Ich gehe von sinkenden Latenzen aus, weil AMD genau weiß, dass das eben das Problem bei denen ist.

Rein von der IPC (auch wenn Intelaner nicht höhren wollen) liegen zwischen den Konkurrenten keine 10% unterschied. Und das AMD das schafft aufzuholen ist möglich, was am Ende bei heraus kommt, weiß aber noch keiner!

Auf jeden Fall ein spannendes Duell!

Das wollt ihr schon seit dem Bulldozer... :rollen:

AMD hat über 50% mehr IPC mit Summit Ridge geschafft. Das die ganzen Zen Architektur funktionert, wissen wir heute. Und die laufen deutlich besser als die Bulldozer und Vishera vorher.
 
Nein, würde auch keinen Sinn machen wenn man die direkt verbindet, wenn der gemeinsam genutzte Cache nicht im CCX untergebracht ist. Derzeit ist es soweit ich weiß so, dass L1 und L2 Cache im jeweiligen Kern sitzen und die 4 Kerne eines CCX auf den selben Level 3 Cache zugreifen. Heißt wenn ein CCX etwas aus dem Cache des anderen braucht, muss das über das IF in die Wege geleitet werden. Anforderung der Daten plus der eigentlichen Übertragung addiert also zweimal IF-Delay zusätzlich zur regulären L3 Zugriffszeit. Im Worst-Case hast du vielleicht auch noch einen Cache Fail und das Zeug muss erst aus dem RAM geladen werden.
Wenn nun, wie hier offensichtlich geplant, der L3 in den Controller ausgelagert wird, spart man sich den Weg über IF. Die L3-Zugriffszeiten dürften zwar länger ausfallen, als wenn auf den L3 auf demselben CCX zugegriffen wird, dafür gehen aber die maximalen Zugriffszeiten stark zurück und sind zusätzlich weit konstanter.

Durch die Verlagerung des LLC* ergeben sich keine Latenzvorteile, die Kommunikation läuft in gewohnte Weise via IF. In Zukunft entfallen nur die glücklichen Momente, in denen die Daten schon im lokalen L3 eines CCX oder zumindest im Arbeitsspeicher des Die-eigenen RAM-Controllers lagen; bei Zen2 liegt die richtige Cache-Slice respektive der richtige Speicher-Controller immer auf einem anderen Die. Der Zugriff auf diese Daten kann dann nach dem gleichen Schema erfolgen, das bereits von den Compute-Dies Threadripper 2000s bekannt ist. Nur die bislang auf den I/O-Dies zusätzlich vorhandenen CPU-Kerne fallen weg. Dieses spielen bei Die-übergreifenden Speicher-/Cache-Zugriffe aber schon heute keine Rolle.

Spannend wird die Geschwindigkeit des für die neue Die-Die-Kommunikation genutzten IF. AMD hat Optimierungen angedeutet, es gibt aber keine Informationen zu deren Ausmaß. Bislang war das externe IF etwas träger als das Die-interne. Ich bin sehr gespannt, ob AMD es schafft ein Zugriffsmuster, das praktisch dem Worst-Case von Threadripper 2000 entspricht, so stark zu beschleunigen, dass sich gegenüber Ryzen 2000 ein Vorteil ergibt.


*: Zur Gesamtzahl und Größe der Kernstufen gibt es noch keine Aussage. Der I/O-Die könnte also sowohl L3 oder L4 darstellen.
 
Edit:
Oder, was ich noch interessanter fände: Die CCX bleiben wie jetzt (also mit L3 Cache), nur mit 8 Kernen pro Chiplet, und man führt für den Datenaustausch zwischen den CCX einen zusätzlichen L4-Cache auf dem IO-Chip ein. Wie der L4 auf Haswell für CPU-GPU Interaktion.
War das nicht Broadwell?
 
Nein ist es nicht, schon alleine weil wir die InF2 nicht kennen, die wohl mit vollem Prozessortakt läuft und wir auch sonst keine genauen Informationen über den Aufbau haben.
Du verbreitest hier wieder Fake News!

Wie gesagt, die Best-Case Latenzen für den L3 Cache-Zugriff werden vermutlich minimal steigen weil ein paar mm mehr Weg zurückgelegt werden müssen. Aber da bewegen wir uns wohl im einstelligen ns-Bereich, wenn überhaupt.

Außer es kommt wirklich ein spezieller L4 Cache auf den IO-Controller, in den der L3-Inhalt beider CCX kopiert wird. Dann bleibt CCX-intern alles beim Alten und Inter-CCX ist man nicht mehr durch den RAM gebremst, weil man zwischen IO-Controller und CCX einen eigenen Takt fahren kann.
Je mehr ich darüber nachdenke, desto besser gefällt mir die Idee.
 
Ich freu mich auf die Octacores. :)
Jetzt hätte ich nämlich zumindest ein Anwendungsgebiet als Hobby, bei dem mein aktueller Vierkerner ziemlich das Nachsehen hat gegenüber neueren CPUs.
DDR 4 Speicher ist momentan wieder in guten Preisregionen, sodass sich dann im Sommer für 100~120€ vielleicht sogar 32GB ausgehen, jedenfalls pfeilschnelle 16GB.

Hoffentlich laufen die auch noch problemlos mit Windows 7. Wenn einige Sonderfeatures nicht funktionieren wär mir das eher egal.
 
Zuletzt bearbeitet:
@ sterreich
Sollte, durch Einführung des L4-Caches ein möglicher Flaschenhals bei der Kommunikation zwischen CPU/GPU und RAM reduziert werden, indem weniger konkurrierende Zugriffe auf den Arbeitsspeicher stattfinden ?
Das wäre dann ja nur ein simpeler Puffer.
 
Apro po Latenzen. Gibt es denn Spiele die Latenz empfindlich sind? Und welchen leistungsunterschied gibt es denn von guten und schlechten Latenzen. Etwa 20 % und mehr?
 
Wenn man bedenkt das es wohl noch ein halbes Jahr zeit ist bis dahin, kann jetzt schon gut optimiert werden dafür. ;)

Eines ist sicher, es bleibt Spannend! Mehr kann man zu Ryzen 3000 noch nicht sagen. Und eben das ein Ryzen 3000 8 Kerner bei gleichen Rahmenbedingen einen 9900K im CB15 leicht schlägt. Aber was wissen wir mehr? Gar nichts!

Ich gehe von sinkenden Latenzen aus, weil AMD genau weiß, dass das eben das Problem bei denen ist.

Rein von der IPC (auch wenn Intelaner nicht höhren wollen) liegen zwischen den Konkurrenten keine 10% unterschied. Und das AMD das schafft aufzuholen ist möglich, was am Ende bei heraus kommt, weiß aber noch keiner!

Auf jeden Fall ein spannendes Duell!



AMD hat über 50% mehr IPC mit Summit Ridge geschafft. Das die ganzen Zen Architektur funktionert, wissen wir heute. Und die laufen deutlich besser als die Bulldozer und Vishera vorher.

Toll, der 2700X lag auch schon nur 10% hinter dem 9900k im CB15. Das bedeutet für die "fehlende" Gamingleistung (im CPU Limit auch mal deutlich über 30%) leider nicht viel. Sollte aber schon mal zeigen, das AMD wohl die IPC gut steigern konnte. Dann klappt das mit den Latenzen bestimmt auch noch und uns erwartet tatsache eine tolle (für Gaming) CPU. Ich hoffe auf 16 Kerne auf AM4, mit einem starken Ram Controller, für mächtiges RAM OC.
 
Apro po Latenzen. Gibt es denn Spiele die Latenz empfindlich sind? Und welchen leistungsunterschied gibt es denn von guten und schlechten Latenzen. Etwa 20 % und mehr?

Wenn die IPC vom 2700X nur 5% hinter dem 9900K liegt und dieser in Spielen aber (im CPU Limit) bis zu 40-45% schneller sein kann. Dann können das schon gute 20% sein und welches Spiel ist nicht Latenzempfindlich, in dem Sinne.
 
Toll, der 2700X lag auch schon nur 10% hinter dem 9900k im CB15. Das bedeutet für die "fehlende" Gamingleistung (im CPU Limit auch mal deutlich über 30%) leider nicht viel. Sollte aber schon mal zeigen, das AMD wohl die IPC gut steigern konnte. Dann klappt das mit den Latenzen bestimmt auch noch und uns erwartet tatsache eine tolle (für Gaming) CPU. Ich hoffe auf 16 Kerne auf AM4, mit einem starken Ram Controller, für mächtiges RAM OC.

Laut CB 16% Unterschied beim Cinebench zwischen dem 9900k und 2700X (multicore) und 25% Differenz (singlecore) (beides ohne 95W Limit, so wie es bei AMD getestet wurde)
 
Zuletzt bearbeitet:
Ihr nicht, nicht wahr? :wall:

Ist mir völlig Wumpe, bin auf die Resterampe, die AMD die letzten Jahre zu bieten hatte nicht angewiesen.

@cPT_cAPSLOCK: Keine Rolle spielen technische Gegebenheiten. Wenn's einfach unwirtschaftlich ist ein Spiel auf 8 Kerne zu optimieren wird's nicht gemacht. Darum ja auch der Blick auf die aktuelle (Beta-)Spielelandschaft. Dazu wäre ich gewaltig überrascht wenn sich die Lage ändern würde. Die Käufer werden konditioniert überteuerte Collectors Editions VOR ZU BESTELLEN(!), zahlen hunderte Euro um mit den Zugaben in Form von Plastikschrott eine Early Beta zu spielen. Statt Kritik zum Spiel gibt's maximal Beschwerden wegen nem Nylonbeutel.

Dort stehen wir gerade.
 
Durch die Verlagerung des LLC* ergeben sich keine Latenzvorteile, die Kommunikation läuft in gewohnte Weise via IF. In Zukunft entfallen nur die glücklichen Momente, in denen die Daten schon im lokalen L3 eines CCX oder zumindest im Arbeitsspeicher des Die-eigenen RAM-Controllers lagen; bei Zen2 liegt die richtige Cache-Slice respektive der richtige Speicher-Controller immer auf einem anderen Die. Der Zugriff auf diese Daten kann dann nach dem gleichen Schema erfolgen, das bereits von den Compute-Dies Threadripper 2000s bekannt ist. Nur die bislang auf den I/O-Dies zusätzlich vorhandenen CPU-Kerne fallen weg. Dieses spielen bei Die-übergreifenden Speicher-/Cache-Zugriffe aber schon heute keine Rolle.
Der L3 Cache läuft auch schon über den IF? Dachte nur die CCX und RAM-Kommunikation?

Die Daten sind zwar physisch auf einem anderen Chip, ist das aber nicht trotz allem eigentlich ein "lokaler" L3 auf den beide CCX gleichzeitig zugreifen können? Ähnlich wie wenn ich in einer großen Firma einen zentralen Server in einem extra Gebäude habe, nur etwas mehr Latenz durch weiteren Übertragungsweg.
Die derzeitige Situation wären ja vergleichbar mit jeweils einem Server pro Gebäude/Standort, die bei Bedarf miteinander kommunizieren, diese Zwischenebene dürfte ja mit dem zentralen IO-Die und gemeinsamen L3/L4 Cach wegfallen.
Ich hoffe es ist nachvollziehbar wie ich es meine.

Spannend wird die Geschwindigkeit des für die neue Die-Die-Kommunikation genutzten IF. AMD hat Optimierungen angedeutet, es gibt aber keine Informationen zu deren Ausmaß. Bislang war das externe IF etwas träger als das Die-interne. Ich bin sehr gespannt, ob AMD es schafft ein Zugriffsmuster, das praktisch dem Worst-Case von Threadripper 2000 entspricht, so stark zu beschleunigen, dass sich gegenüber Ryzen 2000 ein Vorteil ergibt.
Naja, mit dem IO sollte man theoretisch 2 verschiedene Frequenzen anlegen können, ein IMC für die Kommunikation zwischen CCX und IO-Cache mit entsprechend hoher Frequenz und ein eigener für externe Kommunikation wie RAM oder GPU die entsprechend durch den niedrigsten Takt bestimmt wird. Bin wirklich gespannt was AMD hier macht.

War das nicht Broadwell?
Hab nochmal nachgesehen, waren offenbar beide. Bei Haswell gab es einen Ableger mit eDRAM (Crystalwell), allerdings nur für das mobile Segment. Broadwell gabs dann auch Desktop Chips.

@ sterreich
Sollte, durch Einführung des L4-Caches ein möglicher Flaschenhals bei der Kommunikation zwischen CPU/GPU und RAM reduziert werden, indem weniger konkurrierende Zugriffe auf den Arbeitsspeicher stattfinden ?
Das wäre dann ja nur ein simpeler Puffer.
Ich hab halt nur eher rudimentäre Kenntnisse wie das im Hintergrund abläuft. Als ich das Ganze gelernt hab waren Dual-Cores noch heißer Schei* :ugly:
Aber ja, ich hätte das als "simplen" Puffer im Sinn. Also quasi die momentane Zen Struktur mit dem L3-Cache auf dem CCX, aber gleichzeitig wird permanent der Speicherinhalt in den L4-Cache kopiert. Sollte dann wirklich ein Kern was von einem anderen CCX brauchen greift er einfach auf den L4 zu anstatt da einen Umweg über IF bzw RAM zu machen. Immer noch langsamer als bei einem monolithischen Die, aber wohl auch schneller als die momentane Lösung.
Zugriff auf RAM/GPU wäre durch die zusätzliche Ebene wohl etwas langsamer, aber auch wie du sagst weniger häufig.

Aber das ist mein Hirngespinst mit relativ naivem Verständnis im Vergleich zu wohl manch anderem hier, kann auch sein, dass meine Idee kompletter Blödsinn ist :D

Wie es auch kommt, ich bin gespannt.
Wenn die IPC vom 2700X nur 5% hinter dem 9900K liegt und dieser in Spielen aber (im CPU Limit) bis zu 40-45% schneller sein kann. Dann können das schon gute 20% sein und welches Spiel ist nicht Latenzempfindlich, in dem Sinne.
4.5% IPC-Vorteil für Intel. In den meisten Spielen wohl gut 20-25% Taktvorteil da nur 4+4 Threads ausgelastet. Der Rest dürfte dann an Latenzen und gegebenenfalls Optimierungen liegen.
Insgesamt gehe ich davon aus, das Intel hauchdünn die Nase vorne behalten wird. Teilweise aber schon in einem Bereich, wo man es auch auf Messtoleranz schieben kann.
 
Bin auch gespannt, finde ich gut mit dem L4, simpel und einfach effektive.
Das Warten nervt auch, AMD könnte mit mehr Informationen langsam in die Puschen kommen. :D
 
Ich nutze aktuell einen Ryzen der ersten Generation auf einem Board mit B350 Chipsatz. Soweit ich weiß, lassen sich dort auch die der zweiten Generation verbauen, sofern das Bios aktuell ist.
Weiß jemand, ob die dritte Generation auch noch möglich ist?
 
Ich nutze aktuell einen Ryzen der ersten Generation auf einem Board mit B350 Chipsatz. Soweit ich weiß, lassen sich dort auch die der zweiten Generation verbauen, sofern das Bios aktuell ist.
Weiß jemand, ob die dritte Generation auch noch möglich ist?
Ja, ggf. mit Einschränkungen. Gab hier auf PCGH eine News dazu.
 
Zurück