News AMD Ryzen 8000 ("Zen 5"): Gerüchte zu Strix Point und der Mega-APU Strix Halo

du hängst mit einer iGPU ja trotzdem nur am DDR5 Speicherbus, schneller ist evtl trotzdem die 380, und außerdem kaufen sowas ja nicht nur Chinesen: wenn du eine kleine GPU nachrüsten möchtest/musst ist das Ding nicht unpraktisch, etwa auch dank AV1 encode (bis auf die SAM/ReBar Abhängigkeit)
8000er DDR5 dürfte aber nicht so arg limitieren :D. Die ARC 380 zumindest dürfte die APU locker eintüten wenn nicht sogar die ARC 750, bin ich von überzeugt. Soll sich ja angeblich mit Nvidias RTX 4070 Laptop anlegen können.
 
Was kann man dann erwarten? Glaube Apple bekommt bei 256 Bit LPPD5 auf 200GB/s
Wäre vielleicht noch etwas wenig für 2560 Shader samt CPU oder?
Ja klar wird das bremsen, dem wollte ich auch keinesfalls widersprechen. Aber ich denke LPDDR5X mit 256Bit wird das ganze schon ordentlich anheizen. Soweit ich weiß, ist bisher DDR5 und 128Bit das höchste der Gefühle, DDR5X sollte die Bandbreite um 30% anheben, dazu eine Verdoppelung der Anbindung und voila! 260% Bandbreite zu anderen APUs. Man dürfte also in etwa bei der halben Bandbreite einer 4070 (Desktop Version = 504GB/s)) landen, was für eine APU definitiv schonmal mehr als ein großer Schritt in die richtige Richtung ist!

Aber ja, da stimme ich dir zu, dies wird die APU in ihrer Leistung begrenzen und das auch schon ordentlich.
die hat ja sogar nur 186 GB/s Bandbreite, erst die 750 knallt mit vollem 256Bit Interface rein.
 
Ja klar wird das bremsen, dem wollte ich auch keinesfalls widersprechen. Aber ich denke LPDDR5X mit 256Bit wird das ganze schon ordentlich anheizen. Soweit ich weiß, ist bisher DDR5 und 128Bit das höchste der Gefühle, DDR5X sollte die Bandbreite um 30% anheben, dazu eine Verdoppelung der Anbindung und voila! 260% Bandbreite zu anderen APUs. Man dürfte also in etwa bei der halben Bandbreite einer 4070 (Desktop Version = 504GB/s)) landen, was für eine APU definitiv schonmal mehr als ein großer Schritt in die richtige Richtung ist!

Aber ja, da stimme ich dir zu, dies wird die APU in ihrer Leistung begrenzen und das auch schon ordentlich.

die hat ja sogar nur 186 GB/s Bandbreite, erst die 750 knallt mit vollem 256Bit Interface rein.

Vielleicht spendiert man der APU als Ausgleich etwas 3D Cache? Würde sicher neben der Effizienz auch die Spieleleistung erhöhen.
Solche APU´s dürften wohl für 80% aller Gamer reichen und dank geringer Größe auch noch platzsparend unterbracht werden können.

Wird aber sicher auch nicht ganz billig für den Anfang.
 
Aber technisch gesehen können die Zen 5c das gleiche was die "normalen" Zen 5 Kerne auch können.
Intels E-Cores sind ein komplett anderes Design als die P-Cores. Soweit ich weiß sogar mit anderem Instructionset.
Hast du dafür eine Quelle? Ich habe jetzt nur rausbekommen, dass Intels E-Cores kein AVX512 unterstützen, weswegen man bei den CPUs entweder AVX512 oder die E-Cores nutzen kann. Die Tatsache, dass sonst zwei Kerntypen mit verschiedenem Befehlssatz gleichzeitig laufen würden, hat mich stutzig gemacht. An sich sollte das kein Problem sein, die Programme laufen ja in beiden Fällen, solange sie beide Ausbaustufen unterstützt, aber es dürfte krachen, wenn man einen laufenden Thread von einer CPU, die mehr kann auf eine verschiebt, die weniger kann.
 
Vielleicht spendiert man der APU als Ausgleich etwas 3D Cache?
Wäre in jedem Fall eine echt geile Sache, macht aber die APU wahrscheinlich noch teurer, als sie ohnehin schon wird. Man stelle sich mal 4070 Leistung vor, in zwei Jahren, zusammen mit der Leistung eines 7800X3D (8 Kerne und 3D; Takt weniger aber dafür Zen 5 statt 4), bei der derzeitigen Preisgestaltung würde man wahrscheinlich im Raum der 1000 EUR Systeme wildern, das alles mit einer mobilen Plattform?
 
Hast du dafür eine Quelle? Ich habe jetzt nur rausbekommen, dass Intels E-Cores kein AVX512 unterstützen, weswegen man bei den CPUs entweder AVX512 oder die E-Cores nutzen kann. Die Tatsache, dass sonst zwei Kerntypen mit verschiedenem Befehlssatz gleichzeitig laufen würden, hat mich stutzig gemacht. An sich sollte das kein Problem sein, die Programme laufen ja in beiden Fällen, solange sie beide Ausbaustufen unterstützt, aber es dürfte krachen, wenn man einen laufenden Thread von einer CPU, die mehr kann auf eine verschiebt, die weniger kann.
Ich hab jetzt extra noch mal versucht das zu verifizieren, da ich es in einem YouTube Video gesehen habe. Aber ich habe das wohl etwas falsch aufgeschnappt. Ein passender Vergleich wäre wohl unterschiedliche Generationen. Bei der zwölften Generation wurden die E-Cores zu erklärt: "Die E-Kerne nutzen die Gracemont-Architektur, diese soll eine IPC ähnlich der alten Skylake-Implementierung aufweisen." Es sind unterschiedliche Architekturen, aber das Instructionset ist wohl schon gleich. Sorry.
 
Dann aber wohl Spiele aus mehreren Jahren zuvor.... bei 4 K mein ich^^.
Sa haben ja vollwertige Karten heute so ihre Probleme, wenns nicht grad Indygames sind. Ich glaub du interpretierst da etwas zu viel Leistung rein, zumindest in der Realität. Ohne dir zu nahe treten zu wollen, ist nciht böse gement, ok?
Nein. 40 CUs sind schon fast halb so viel wie meine aktuelle Karte jetzt hat (84 CUs). Und mit z.B. HBM-Cache oder was auch immer AMD sich dafür einfallen lassen wird, sollte man auch auf die volle Leistung kommen. (glaube kaum, sie bauen so viele CUs ein, nur damit sie eingebaut sind... - wird sich schon nutzen lassen.)
Wenn also in 5 Jahren vielleicht 200 CUs in so einem Compute-Modul wären, und auf dedizierten GPUs 400, dann könnte das eben für 4K Gaming ohne VR oder ähnliches schon reichen.

Und mit den 84 CUs hab ich absolut keine Probleme aktuelle Spiele auf maximalem Detailgrad zu zocken. Außer das AntiAliasing, was aber sowieso in 4K zwischen der niedrigsten und höchsten Stufe gar keinen sichtbaren Unterschied mehr macht.
 
Es sind unterschiedliche Architekturen, aber das Instructionset ist wohl schon gleich. Sorry.
Naja, wirklich Unrecht hattest du mit den Intels ja nicht, wenn die E-Cores kein AVX512 können. Die Frage ist dann eher, ob das bei AMD genau so wird oder eben nicht. Prinzipiell besteht eigentlich auch die Möglichkeit AVX512 per Microcode in den Befehlssatz dazuzuimplementieren, ist halt dann nicht schneller, aber gibt auch keine Fehler.
 
dafür allerdings auch DDR5X und 256Bit
ähh, versteh ich nicht
Naja, wirklich Unrecht hattest du mit den Intels ja nicht, wenn die E-Cores kein AVX512 können. Die Frage ist dann eher, ob das bei AMD genau so wird oder eben nicht. Prinzipiell besteht eigentlich auch die Möglichkeit AVX512 per Microcode in den Befehlssatz dazuzuimplementieren, ist halt dann nicht schneller, aber gibt auch keine Fehler.
Intel hat übrigens bereits einen Nachfolger sngekündigt, mit dem AVX 512 dann auch mit deren Hybrid Arch funktionieren wird

8000er DDR5 dürfte aber nicht so arg limitieren :D. Die ARC 380 zumindest dürfte die APU locker eintüten
kann sein, müsste man sich snsehen, weiß die Speicherbandbreite von der grad nicht
wenn nicht sogar die ARC 750, bin ich von überzeugt. Soll sich ja angeblich mit Nvidias RTX 4070 Laptop anlegen können.
nein
 
Zuletzt bearbeitet:
Intel hat übrigens bereits einen Nachfolger sngekündigt, mit dem AVX 512 dann auch mit deren Hybrid Arch funktionieren wird
Hm, nicht uninteressant. Das mit den Extraregistern ist auch ganz cool, allerdings gibt es da schon ein Problem. Code, der auf mehr Register ausgelegt ist, wird auf alten CPUs nicht laufen und ich weiß nicht, ob man bei jedem Registerzugriff eine Weiche einbauen kann, ohne dass einem die Performance abhanden kommt. Oder soll das dann transparent passieren? Und dieser neue AVX-Satz, der auf E-Cores laufen wird, weil 512-Bit-Register optional sind? AVX mit 512 Bit wird also weiterhin nur auf den P-Cores laufen? Vielleicht wird das doch irgendwie so gelöst, wie ich vermutet habe und es wird dann einfach transparent in zwei 256-Bit-Operationen aufgeteilt, aber so richtig wird man aus den Texten zu dem Thema nicht schlau. Irgendwas werden sie sich gedacht haben.
 
Mit APU verstehe ich den Desktop und den Laptop Bereich?

Auch was mich wurmt. Könnte die Grafikeinheit auch als Coprozessor genutzt werden mit einer einzelnen Grafikkarte?
Träume da von der Nutzung der AI Einheit mit RDNA2 + AV1 Codec.
 
ähh, versteh ich nicht
Wieso? LPDDR5X wird eine deutlich höhere Bandbreite als normaler LPDDR5 bieten (ca. 30%), dazu 256Bit Interface, welches die Bandbreite nochmals erhöht. Im Vergleich zu jetzigen APUs

Intel hat übrigens bereits einen Nachfolger sngekündigt, mit dem AVX 512 dann auch mit deren Hybrid Arch funktionieren wird
Funktioniert AVX512 nicht sogar grds. und wurde nur von Intel deaktiviert. Meine doch Alder Lake konnte das sogar zu Beginn bei einigen Revisionen, erst im Nachgang hat man die Möglichkeit dies zu aktivieren entfernt, oder irre ich gerade gewaltig?

186GB/s bei der A380, die Karten darüber ab A550 liefern dann 500GB/s
 
Strix Halo im Sockel würde mich trotzdem eher wundern.
LPDDR5X erlaubt schließlich deutlich mehr Bandbreite (bei schlechteren Latenzen, aber GPUs brauchen eher Ersteres) als gesockelter RAM.

Vor allem wird das Interface auf die Hälfte beschnitten, wenn man den AM5 nimmt, denn der kann halt nur 4× 32 Bit, nicht 8×. Und wenn AMD einen neuen Sockel extra für Strix Halo in petto hätte, würde ich erwarten, dass sie den auch an Stelle eines halb deaktivierten SP6 für Threadripper 7000 verwenden würden. Strix Point erscheint mir da als geeigneterer Desktop-Kandidat. Zumal High-End-APUs ohnehin ein Spezialprodukt sind entweder für maximale Gaming-Leistung auf kleinstem Raum (vergl. Kaby Lake G) oder auf mittlerem Raum mit möglichst wenig extra Kosten drum rum (Konsolen; Apple nimmt das auch gerne mit). Diese Nischen mögen beide keine Sockel.

Naja, wirklich Unrecht hattest du mit den Intels ja nicht, wenn die E-Cores kein AVX512 können. Die Frage ist dann eher, ob das bei AMD genau so wird oder eben nicht. Prinzipiell besteht eigentlich auch die Möglichkeit AVX512 per Microcode in den Befehlssatz dazuzuimplementieren, ist halt dann nicht schneller, aber gibt auch keine Fehler.

AMD hat Hybrid-Designs mal mit der Begründung abgelehnt, dass sie keine unterschiedlichen Befehlssätze wollen. Zumindest für Zen 4c ist bekannt, dass er das volle Feature-Set des normalen Zen 4 unterstützt, nur halt mit etwas geringerem Tempo. Für Zen 5/c würde ich ähnliches erwarten. Im Gegensatz zu Intel spricht AMD bislang nicht von einer Optimierung für verschiedene Leistungsbereiche ("stromhungrig" und "extrem stromhungrig"^^), sondern nimmt nur die Platz-/Kostenersparnis mit respektive will mehr Kerne auf die gleiche Siliziumfläche quetschen.
 
AMD hat Hybrid-Designs mal mit der Begründung abgelehnt, dass sie keine unterschiedlichen Befehlssätze wollen. Zumindest für Zen 4c ist bekannt, dass er das volle Feature-Set des normalen Zen 4 unterstützt, nur halt mit etwas geringerem Tempo.
Scheinbar hat Zen 4 aber auch nur 256-Bit-Register und führt AVX-512-Befehle sowieso geteilt auf. Zen 4 hat wohl vier von diesen Registern, könnte also 2 512-Bit-Operationen parallel ausführen, Zen 4c könnte dementsprechend einfach weniger haben. Aber zu Intel finde ich da gerade nichts. Aber irgendwie ist ja auch die Frage, wo da Nomenklatur anfängt, wenn man quasi 1.024 Bit für Vektoroperationen zur Verfügung hat, ob das jetzt 2 512-Bit- oder 4 256-Bit-Register sind. Vor dem Nutzer dürfte das ja alles abstrahiert sein. Und notfalls könnte man diese Befehle auch mit 64-Bit-Registern halbwegs schnell ausführen.
Für Zen 5/c würde ich ähnliches erwarten. Im Gegensatz zu Intel spricht AMD bislang nicht von einer Optimierung für verschiedene Leistungsbereiche ("stromhungrig" und "extrem stromhungrig"^^), sondern nimmt nur die Platz-/Kostenersparnis mit respektive will mehr Kerne auf die gleiche Siliziumfläche quetschen.
Ich bin mir nicht ganz sicher, ob das am Ende nicht auf das gleiche herauskommt. Viele Bereiche, die gestrichen werden, weil sie extrem viel Fläche benötigen, nur um die Single-Thread-Performance leicht zu steigern, verbrauchen vermutlich auch nicht gerade unerheblich viel Energie. Und mehr Rohrechenleistung pro Fläche könnte auch dafür sorgen, dass man mit weniger Takt auskommt, was die Effizienz ja noch mal steigert.
 
Golden Cove in der Desktop-Fassung hat zwei vollwertige 256-Bit-Ports, von denen einer auch 512 Bit annehmen kann, dann aber den zweiten stilllegt. Ob die Recheneinheiten dahinter tatsächlich zu einer 512-Bit-Einheit verschaltet werden oder ob man abwechselnd jeden Takt einen 512-Bit-Befehl an die eine und an die andere 256-Bit-Einheit gibt, die dann doppelt so lange damit zu tun haben, weiß ich nicht. Aber nur die Server-Ausbaustufe hat nochmal eine komplette zusätzliche 512-Bit-Einheit, um zweimal 512 Bit je Takt anzunehmen.

Eine Abstraktion auf vier 128-Bit-Zyklen für die E-Core-SIMDs scheint theoretisch möglich und die Frage, warum Intel nicht einfach diesen Weg gegangen ist, wurde schon häufiger gestellt. Allerdings bekommt man bei Schummeleien soweit unten in der Pipeline schnell auch Latenzprobleme und allgemein braucht man natürlich entsprechend große Register, eine Cache-Anbindung für so lange Words, etc. – vielleicht war dieser Preis zu hoch oder der Enticklungsaufwand ausgehend von den Atom-Kernen zu viel, zumal 512 Bit im Desktop ja bis auf weiteres verzichtbar ist.

Bei AMDs c-Optimierungen kommt nach aktuellem Stand nicht das gleiche bei raus. Zen 4c sind relativ zu Zen 4 mehr als doppelt so groß wie Gracemont relativ zu Golden/Raptor Cove, obwohl AMD den platzraubenden L3-Cache in gleichem Maße reduziert. Die Einsparungen pro Kern fallen also wesentlich schwächer aus. Wie sich das auf Performance und Verbrauch auswirkt, müssen wir abwarten, aber in der Theorie hat AMDs milder Ansatz viel weniger Potenzial. In der Praxis werden sie natürlich gegen Intels Versuch, aus den (Desktop-)E-Cores massiv mehr Leistung rauszuquälen, trotzdem gut dastehen.
 
Bei AMDs c-Optimierungen kommt nach aktuellem Stand nicht das gleiche bei raus.
Gut, mag sein, dass sie es nicht so weit treiben, aber die Richtung dürfte im Endeffekt dieselbe sein. Bin auf jeden Fall mal gespannt was sich da in welchen Szenarien besser schlägt. Einerseits finde ich die Heterogenität spannend und auch sinnvoll, andererseits ist es ein absoluter Albtraum für jeden Scheduler, spätestens wenn die Entwickler nicht mitspielen und den Threads ihrer Programme keine geeigneten Prioritäten zuweisen.
 
Artikel gelesen die ganzen kommentare hier überflogen.

Wenn das so kommen sollte und mit einer PPT von rund 120 Watt daher kommt wäre abselut nice.
Da finde ich generell nicht die frage ob sondern wenn und falls wie viel es kostet weil diese CPUs klingen verdammt interesannt und wären schon was.

Könnte für viele den AM5 einstieg bringen wenn es ne sagen wir xy800x3d cpu gäbe die dann halt ordentlich power hätte neben den höhren cash. Hier wird ja von 64mbitye geredet. für das eine modell.
Finde die leaks sehr interesannt auch wenn man es aktuell noch mit vorsicht genißen kann/sollte aber dass ist ne Fortschritt der ne neue ebene erreicht.
 
also ich kann auf TSV verzichten.Was auch immer der macht.Wenn das nicht zu mehr Leistung führt,dann ist das ja schon mal gut das andere Einheiten dann mehr Spielraum haben.
Ob weniger Cache einen wirklichen Nachteil für mich darstellt kann ich noch nicht sagen.Ob sich der 16 Kerner oder auch 24 Kerner besser verhält als ein 8 Kerner mit nur noch 16 anstatt 32 MB L3 Cache,das ist halt die Frage.
Ich weis nur das zwischen 5700g und 5800x es nen Leistungsunterschied gibt aufgrund des weniger L3 Caches.
Wie es nun bei 16 Kernen und mehr aussieht,das bleibt die spannende Frage.Und ob durch das es auf einen Chip dann sich befindet,die Abhängigkeit von L3 Cache sich dann verringert wird ebenso.
Also hilft da nur noch testen,was anderes kann man da ja eh nichts dazu sagen.
Nur eines wird man sehr wohl merken.Wenn ne Anwendung von Haus aus vom CPU Takt Profitiert,wird die Leistung durch diese Maßnahme massiv in dem Boden fallen.Da gibt es bestimmt aber tricks und so wie man das dann auffangen will.
Und ich dachte Zen 5 kommt erst nächstes Jahr und nun wird von dieser CPU schon jetzt darüber berichtet und eventuell schon Veröffentlicht.

Leistung will ich ja dennoch haben,also wird es sich zeigen ob die Anzahl der Kerne den restlichen Nachteil ausgleichen will bzw soll.
 
Wie wird das gemeint, L3 Cache 16MB + 8MB? irgedendwie stehe ich auf dem Schlauch.

Dann wird geschrieben:
Ist es notwendig, 4+8 in zwei CCXs aufzuteilen, oder gibt es einen L4-Cache?
darauf gab es bisher leider keine Antwort.
 
Zuletzt bearbeitet:
Zurück