AMD hat laut Bericht keine Eile mit 5 nm

Man sollte Worst Case betrachten. Zur Zeit gibt es ein max. Latenz von ca 70-75ns. Die fast vollständig verbundene Topologie oben hat max. 2 Hops. Das ergibt eine max. Latenz von ca. 30ns (26ns + max. 4 ns für den zusätzlichen Hop).

Kann man das so rechnen?

Denn wir reden hier ja immer noch von einem CCX, bei einem 16 Kerner wären aber auch dann Varianten denkbar, wo eben der Sprung außerhalb des CCX von statten gehen würde und die aktuellen Latenznachteile würden wieder zum Tragen kommen. Deine Werte beziehen sich ja ausschließlich auf einen 8 Kerner in der 8+0 Konfig, also voraussichtlich einer selten anzutreffenden Konfig, die aktuellen 12 Kerner bspw. setzen sich ja auch 4 CCX mit je drei aktiven Kernen zusammen, also nicht der bestmöglichen Zusammensetzung aus drei CCX mit je 4 Kernen. Könnte mir schon vorstellen, dass man hier um die Yields hochzuhalten auch im 8 Kernbereich in Zukunft weiterhin zwei CCX sehen wird. Die Yields müssten in der Theorie ja zumindest deutlich schlechter werden, daher wäre ich vorsichtig mir deiner Annahme, denn du vergleichst hier den besten mit dem schlechtesten Fall. Arithemtisch gemittelte Werte dürften deutlich realistischer sein und den wahren Abstand deutlicher aufzeigen.

P.S.
Meine Beiträge so tief in der Materie hier bitte immer mit eine Fragezeichen lesen. Bin da bei weitem nicht so tief in der Materie wie ihr und meine Interpretationen sind daher nur sehr vage!
 
Denn wir reden hier ja immer noch von einem CCX, bei einem 16 Kerner wären aber auch dann Varianten denkbar, wo eben der Sprung außerhalb des CCX von statten gehen würde und die aktuellen Latenznachteile würden wieder zum Tragen kommen. Deine Werte beziehen sich ja ausschließlich auf einen 8 Kerner in der 8+0 Konfig [...]

Völlig richtig. Das bezieht sich auf 8 Kerne und 1 CCD. Immerhin stehen 16 Threads zu Verfügung in so einem CCD, so dass der Scheduler das durchaus geschickt zuordnen kann.
 
Meiner Beobachtung nach ist der aktuelle Windows Scheduler so schlau, ja. Aber warum sollten Gamer zu 12 oder 16 Kernen greifen? Die meisten werden wohl eher einen Octacore nehmen.
 
Intel wird so was von die Gaming Krone verlieren! Das ist meiner Meinung nach so sicher wie das Amen in der Kirche.

Das wird etwas auf die Spiele ankommen, ich denke alles in allem wird sich das wohl die Wage halten. Ich habe meinen 10900K mit stark optimierten 4000MHz RAM und einen 3900X mit ebenfalls optimierten RAM verglichen und es gibt durchaus Extremfälle wie Far Cry 5 wo der 10900K ca 50% vorne ist. Im Schnitt wird es wohl irgendwas zwischen 20 und 30% sein. Aber ich denke in den nächsten 1 bis 2 Wochen werden wir ein paar vernünftige Werte vorlegen können.
 
Das wird etwas auf die Spiele ankommen, ich denke alles in allem wird sich das wohl die Wage halten. Ich habe meinen 10900K mit stark optimierten 4000MHz RAM und einen 3900X mit ebenfalls optimierten RAM verglichen und es gibt durchaus Extremfälle wie Far Cry 5 wo der 10900K ca 50% vorne ist. Im Schnitt wird es wohl irgendwas zwischen 20 und 30% sein.
Ich gehe bei meinen Aussagen von Tests mit Specs aus. Es ist ein Mittelwert damit gemeint. Solche Ausreißer wie FC5 gibt's natürlich, aber diese Beispiele werden zukünftig immer mehr verschwinden. Der aktuelle CB Test sieht den 10900K bei den Frametimes 13% vor dem 3900X. Ich runde das mal auf 15% auf wegen GPU-Limit usw. Diese 15% werden fallen und zwar deutlich - meiner bescheidenen Meinung nach. ^^

Aber ich denke in den nächsten 1 bis 2 Wochen werden wir ein paar vernünftige Werte vorlegen können.
Wer ist wir und welche Werte meinst du? :D
 
Ich gehe bei meinen Aussagen von Tests mit Specs aus. Es ist ein Mittelwert damit gemeint. Solche Ausreißer wie FC5 gibt's natürlich, aber diese Beispiele werden zukünftig immer mehr verschwinden. Der aktuelle CB Test sieht den 10900K bei den Frametimes 13% vor dem 3900X. Ich runde das mal auf 15% auf wegen GPU-Limit usw. Diese 15% werden fallen und zwar deutlich - meiner bescheidenen Meinung nach. ^^
Wer ist wir und welche Werte meinst du? :D

Das sind halt Stock Werte und bei Full HD bist du stellenweise schon sehr deutlich im GPU Limit, selbst bei 720p gibt es sehr viele Titel wo ich da trotz 10900K und 2080 Ti reinrausche. Spätestens wenn beide stark optimiert sind wird die Lücke noch etwas Größer zu Gunsten von Intel einfasch weil beim RAM mehr zu holen ist.

Ein Kumpel und ich. Wir müssen nur noch mal etwas Zeit finden, es ist gar nicht so einfach passende Spiele zu finden, da er eine deutlich schwächere Grafikkarte hat und wir Tests im GPU Limit vermeiden wollen.
 
Ja gut, das bessere Optimierungspotential der Intel CPUs habe ich jetzt mal ausgeklammert. Wenn man gut testet, stehen im Moment 20% Average und 15% P1 auf der Bilanz von Intel. Und das wird meiner Einschätzung nach fallen.

Über Optimierungspotential zu argumentieren, ist ja nicht soooo repräsentativ. :D Übrigens, wenn ihr Far Cry ingame bencht, dann passt mit den Schwankungen auf, die sind teilweise enorm und können viel verfälschen.
 
1.) Lächerlich?
Je nach Defintition des Mainstreams mach ich mich bestimmt nicht lächerlich. Wenn du Mainstream im wörtlichen Sinne meinst, hast du Recht, aber da sind auch 16/12/10 Kerne sicherlich nicht angekommen. Ich wage zu behaupten, dass der Mainstream noch bei 4 Kernen steht!

Ich definiere (und so meinte ich die Aussage) es mal so, dass Mainstream das gesammte Ryzen LineUp ist, also von 3100 bis 3950X. In diesem Bereich könnte ich mir 32 Kerne durchaus vorstellen.

2.) Für Games wirst du recht haben, da werden die 32 Kerne nicht viel bringen, auch nicht in zwei Jahren. Aber der Gaming Markt ist ein minimaler Teil des Gesamtmarktes. Es gibt viel viel wichtigere Bereiche, auch im Ryzen LineUp.

3.) Bei Anwendungen widerspreche ich vehement, klar, wenn du die kostenlos angebotene Software nutzt wirst du mit x Kernen kaum Skalierung bekommen. Ein großer Teil der relevanten Anwendungen kann mehr Kerne aber bereits jetzt gut umsetzen. Wie sonst kann man sich z.B. erklären, dass Anwendungen wie HandBrake mehr als doppelt so schnell ablaufen mit einem 32 Kerner wie mit dem 16 Kerner, oder mehr wie 3 mal so schnell wie ein 3600X?

Wenn du mit deiner Aussage ausdrücken wolltes, dass nicht jeder profitieren wird! Dann JA, sonst ist deine Aussage nicht haltbar.

4.) Bzgl. der Abwärme sei dir gesagt, dass wir ausgehend vom heutigen 7nm Prozess durch 5nm eine Reduzierung der Leistungsaufnahme von 40% erreichen können. Ein aktueller 32Kerner skaliert leistungstechnisch am Besten mit einer Verlustleistung von ca. 180W (3960X), minus 40% liegen wir plötzlich bei 108W! Also im Rahmen eines heutigen 16 Kerners! Ausgehend von Zen4.
Für Zen 3 ist meine Mutmaßung sicherlich aktuell sehr optimistisch bis unrealistisch. Dennoch würde ich einen Vorteil in einigen Bereichen sehen, denn die 180W des aktuellen Threadis würden von entsprechenden Boards defintiv erreicht werden und die Mehrleistung wäre schon überraschend groß, gerade bei "professionellen" Anwendungen. Vermutlich wird es aber auch wieder ein 16 Kerner als oberes Limit im Ryzen Portfolio geben und 24-64 Kerne dann erst im Threadripper Bereich.

Zu deiner letzten Aussage, wenn ich sie aufs Gaming beziehe, siehe Punkt 1. Als Gamer wird man mit 32 Kernen keinen signifikanten Vorteil haben, könnte mir dagegen sogar einen Nachteil vorstellen. Aber wir Gamer sind nur ein kleiner, maximal marketingtechnisch wichtiger Markt. Umsatz macht man mit uns kaum. Da sind andere Bereiche viel viel wichtiger. In diesen Bereichen werden die Vorteile aber eben massiv und signifikant ohne Ende sein.

Also zu 1:
Ja gut,sie könnten es,werden allerdings keine 32 Kerne im Mainstream drücken.Warum sollte sie auch.Denn die mehr Kerne kosten ja auch mehr Geld,darum sind sie auch im Highend Sockel gut aufgehoben.Und das noch viele mit 4 Kernen Unterwegs sein werden als Gamer,sehe ich ebenfalls so.Das wird sich allerdings nach und nach ändern und imemr mehr Zocker werden 6 oder gar 8 Kerne haben.Der Veränderugnsprozess das dauert halt,bis es fast alle haben werden.Darum werden die Preise auch immer weiter dort sinken,

zu 3:
Ja ich meinte Kostenlose Software.Ähm Handbrake ist doch auch kostenlos.Also ist das halt ne Ausnahme.Nicht jede kostenlose Software Profitiert z.b von sowas wie AVX oder von anderen Sachen die entscheiden.Somit misst man hier mit zweilei Maß.Das es auch bei kostenloser Software ebenfalls ausnahmen gibt.

zu 4:
Sei dir da mal nicht so sicher.Klar kann man da den Stromverbrauch senken.Jedoch sinkt allerdings im gleichen zuge auch die Fläche wo man es abkühlen kann.Und wenn man dann noch die dichte Erhöht,dann war es das mit dem Sparen.Denn durch die kleinere Fläche und dichte,wird dann der Chip heißer.Mag zwar sein das man den Stromverbrauch senken kann,aber gleichzeitig senkt man die Fläche wo man kühlen kann.Das sehe ich als Nachteil an.Man darf halt dann mit sinkenden Takt rechnen,weil sonst verbrennen die CPUS auch noch und schalten sich bevor sowas passiert dann einfach ab.
Ansonsten sehe ich es wie du,das 16 Kerne wieder kommen werden.Es kam ja auch als Info ein ES vom neuen 16 Kerner.Allerdings nur 200 mhz mehr Allcore standard Takt,das ist wenig.Finde das entäuscht mich.Habe halt irgendwie mit mehr erwartet.Scheint halt nicht mehr herzugeben.
 
Sei dir da mal nicht so sicher.Klar kann man da den Stromverbrauch senken.Jedoch sinkt allerdings im gleichen zuge auch die Fläche wo man es abkühlen kann.Und wenn man dann noch die dichte Erhöht,dann war es das mit dem Sparen.Denn durch die kleinere Fläche und dichte,wird dann der Chip heißer.Mag zwar sein das man den Stromverbrauch senken kann,aber gleichzeitig senkt man die Fläche wo man kühlen kann.

Ist halt die Frage in welchem Verhältnis die Dichte steigt und der Verbrauch sinkt. Bei Ryzen sehen wir in meinen Augen sehr gut, dass der Sweet Spot bei 4-4,2 GHz liegt. Daher würden 32 Kerne eben bei dem aktuellen Sweetspot und 40% weniger Stromaufnahme bei 108W liegen, dadue Transistordichte bei 5nm wohl in etwa auch in dem Maße steigt wie der Verbrauch sinkt dürfte die Kühlfläche in etwa gleich bleiben, da reden wir dann aber von Threadrippers Dies die ohnehin deutlich größer sind. Sollte also kein Problem sein. Großes Problem wird aber der Herstellungspreis. Mehr Fläche wie bei 7nm und dann zu 5nm EUV Preisen könnten da viel eher den Rahmen des Mainstream sprengen. Eigentlich die einzige Sorge die ich mir mache. Aber es ist wie so oft, die Yield Rate wird vieles entscheiden
 
Hier mal eine mögliche Topologie des Cache Slice Netzwerkes vom brillanten RetiredEngineer.
Anhang anzeigen 1092301
Quelle

Diese Konstruktion braucht keinen Ringbus und kommt auf der anderen Seite mit max. 2 Hops aus.

Edit: Als Ergänzung dazu: entweder es kommt so oder es kommt der Ringbus. Alles andere macht überhaupt keinen Sinn. Alleine diese Optimierung der Latenzen wird Zen 3 auf das Niveau von Intel bei der Spieleleistung heben. Siehe meine Test dazu. Der 10900K ist bei den Frametimes (P1) rund 15% vor dem 3900X mit gleichem Speicher.

Aber dann kommen noch oben drauf:
  • 200-300Mhz mehr Takt
  • der doppelt so große (pro Anwendung nutzbar) L3 Cache pro CCD
  • mehr IPC
  • Optimierungen am IF
Intel wird so was von die Gaming Krone verlieren! Das ist meiner Meinung nach so sicher wie das Amen in der Kirche.

@gaussmath
Hast du eigentlich eine vergleichbare Grafik für den Aufbau für die 8-Kerner von Coffee Lake Refresh (CFL-R)?
Würde mich mal interessieren, wo da Gemeinsamkeiten und Unterschiede in der Kernverknüpfung bestehen.

Man sollte Worst Case betrachten. Zur Zeit gibt es ein max. Latenz von ca 70-75ns. Die fast vollständig verbundene Topologie oben hat max. 2 Hops. Das ergibt eine max. Latenz von ca. 30ns (26ns + max. 4 ns für den zusätzlichen Hop).

Woraus ergibt sich die bei 26 + 4 ns die 26 ns?


Das wird etwas auf die Spiele ankommen, ich denke alles in allem wird sich das wohl die Wage halten. Ich habe meinen 10900K mit stark optimierten 4000MHz RAM und einen 3900X mit ebenfalls optimierten RAM verglichen und es gibt durchaus Extremfälle wie Far Cry 5 wo der 10900K ca 50% vorne ist. Im Schnitt wird es wohl irgendwas zwischen 20 und 30% sein. Aber ich denke in den nächsten 1 bis 2 Wochen werden wir ein paar vernünftige Werte vorlegen können.

Wobei es da spannend wird, wie sich die Spiele-Optimierungen für Multicore und Zen2 in den nächsten Jahren entwickeln. Da könnte der 12-Kerner noch deutlich aufholen - und durch die zwei Kerne mehr - auch überholen.


Daher würden 32 Kerne eben bei dem aktuellen Sweetspot und 40% weniger Stromaufnahme bei 108W liegen, dadue Transistordichte bei 5nm wohl in etwa auch in dem Maße steigt wie der Verbrauch sinkt dürfte die Kühlfläche in etwa gleich bleiben, da reden wir dann aber von Threadrippers Dies die ohnehin deutlich größer sind.

Da ist aber ein Fehler drin. Zen1-2 nutzen bei Ryzen, Threadripper und Epyc die gleichen DIEs, bloß halt in unterschiedlicher Anzahl.
Das ist doch genau die Stärke von AMD derzeit.
 
Zuletzt bearbeitet:
Wobei sich Renoir auch auf die 8 Kerne beschränkt, die bisher auch schon in einen DIE passen.

Der Vorteil der getrennten DIEs ist doch, dass man zwischen 8, 16, 24, 32, 40, 48, 56 und 64 Kernen bei vollständig aktiven DIEs mit ein und dem gleichen DIE skalieren kann.

Das war zur Rome-Vorstellung vor 18 Monaten ein großer Vorteil, ja. Aber je größer die verkauften Stückzahlen werden, desto kleiner wird dieser Nachteil. Wenn man für die Gesamtkapazität ohnehin 4-5-6 parallele Produktionslinien braucht, dann ist es kein Zusatzaufwand, 4-5-6 verschiedene Chips zu fertigen. Und auch die Entwicklung geht bei einem skalierbaren Design, wie sie Intel seit langem einsetzt, flott. Vermutlich sogar flotter als ein Interconnect von IF-Kaliber auf dem Stand der Zeit zu halten. Im Moment verkauft AMD mit diesem "flexiblen" Design reihenweise Chips, die zu drei Vierteln oder gar zur Hälfte deaktiviert sind. Intel mit ihrem "unflexiblen", monolithischen Comet Lake verkauft die 10-Kern Chips bis auf wenige Ausnahmen (eine reine Salvage-SKU und die Mittelklasse-OC-Nische) mit mindestens 80 Prozent aktiven Kernen und wenn ich mich richtig erinnere, wird als nächst kleinere Stufe unter dem Sechskerner sogar ein nativer Quadcore aufgelegt. Und bei Cascade-Lake hat man auch eine feinere Granularität als Rome.

In Zukunft kommt noch die Flächeneffizienz hinzu: Obwohl sie mit riesigen Caches um rund 50 Prozent aufgebläht wurden, sind die CCDs schon heute sehr klein. Würde AMD in 5 nm weiterhin 8-Kern-Chiplets fertigen wollen und die Kerne nicht deutlich größer machen, wären das winzige Chips. Der Sicherheitsabstand zu den Rändern beziehungsweise der Verschnitt bei der Zerteilung des Wafers bleibt aber gleich groß und weiterhin braucht jedes CPU-Chiplet einen eigenen IF-Link und ein entsprechendes Gegenstück am I/O-Chip. Im Server-Segment würde ich ab Zen4 erwarten, dass man das mit 16-Kern-CCDs kompensiert. Aber im Desktop-Bereich werden auch 2022/2023 noch deutlich mehr 8- und vermutlich auch 6- und 4-Kerner verkauft werden, als Prozessoren mit 32 Kernen. Modulare Chiplets zu fertigen, wenn man dann immer genau eins verbaut und gegebenenfalls auch noch zur 75 Prozent deaktivieren muss, wird sich nicht mehr rechnen.

Das ist falsch. Bei den ersten Leaks zu Zen2 wurde noch davon ausgegangen, dass bei den APUs einer der beiden DIEs durch eine Grafikeinheit ersetzt wird.

Und dieses Konzept der angegliederten GPU war älter als der Zen-1-Launch.


Was soll das bedeuten? Dass man den IOD ersetzt hätte, d. h. man hätte Rechnenkerne mit einer GPU kombiniert, jedoch ohne eine Möglichkeit zur Kommunikation mit der Peripherie? Oder dass man die Rechenkerne ersetzt hätte, d. h. man hätte neue Programmierparadigmen einführen müssen, denn offensichtlich müssten dann sämtliche Berechnungen über die SPs der GPU ausgeführt werden. ;-)
Ok, Scherz beiseite. Etwaige Chiplet-Spekulationen waren eher Fantastereien, selbst wenn sie von Medienvertretern kamen. Ein wesentlicher Punkt ist hier die Energieeffizienz und da bedeutet (zumindest die aktuelle Chiplet-Fertigung) einen signifikanten Nachteil. AMD hat nicht umsonst seit 2017 für Mobile(APU)-Designs immer ein eigenes SoC entwickelt. Nicht weil man mit den eigenen Ressourcen nichts besseres anzufangen wusste, sondern schlicht weil es technisch notwendig war.

Es gab zwei Theorien: Einerseits ein neues I/O-Silizium mit integrierter Grafikeinheit, also der Aufbau von Clarkdale. Der dafür zu entwickelnde Chip hätte im Prinzip dem heutigen Renoir entsprochen, nur etwas kleiner und mit einem (in den Träumen einiger Fanboys auch zweier) IF-Link(s), sodass die CPU-Kerne aus der normalen CCD-Fertigung hätten entnommen werden können. Ich hielt das für durchaus plausibel, letztlich unterscheidet sich dieser Entwurf nur durch die allgemeine Frage "modular und IF-Aufwand oder monolithisch und clean?" von dem, was wir bekommen haben. Der Alternativentwurf war ein Prozessor mit integriertem Graphic-Compute-Die, der an Stelle des zweite CCD auf einem Matisse-Substrat Platz nimmt. Die Belastung für den doppelten IF-Link wäre zwar hoch gewesen, allerdings hat er prinzipiell genug Durchsatz, um das Speicher-Interface zu sättigen und die Latenzen sind bei einer GPU leichter zu verstecken. Im Gegenzug hätte AMD so die IODs und CCDs direkt weiter verwenden können, also maximale Modularität und Kostenersparnis durch teilweise 12-nm-Fertigung. Entwürfe für entsprechende AMD-Prozessoren geistern seit Mitte der 10er Jahre durchs Internet, damals noch mit CPU-Kernen und I/O-Funktionen in einem Chip. Einzig die schlechte Energieeffizienz und damit die mangelnde Mobile-Eignung sprachen dagegen, dass die Idee endlich mal umgesetzt wird. Allerdings lag mobile vor Renoir sowieso nicht im AMD-Fokus, eher noch der Einsatz in Rechenzentren. Und Rome mit 32/16 Kernen sowie 4/6 GPGPU-Clustern wäre ein echtes Biest.
 
Klingt logisch.
Die Frage ist nur, ob neben einem möglichen 16 Kern DIE für die großen Desktop CPUs mit 12-16 Kernen wirklich noch ein reiner CPU-DIE für 8-Kerner kommt. Stattdessen könnte bei kleineren CPUs auch der APU-DIE inkl. iGPU verwendet werden.
Renoir ist schließlich schon genau so ein monolitischer 8 Kerner mit Grafikeinheit.
 
Zuletzt bearbeitet:
Ich wollte damit zum Ausdruck bringen, dass sich selbst ein 16-Kern-CCD im Desktop nicht lohnt, solange man keine 32-Kerner verbaut. Man müsste in diesem Fall sowieso einen extra IOD dafür entwickeln und dann könnte man die Kerne auch gleich in diesen reinpacken. Skalierbare Chiplets machen erst dann Sinn, wenn man sie auch skaliert. Denkbar wäre eine Rückkehr zum Zeppelin-Layout, nur halt mit 16-Kernen oder eine Trennung von modularem Server- und monolithischem Desktop-Markt. Wenn AMD auf ganzer Front Druck machen möchte, brauchen sie mittelfristig sowieso noch eine weitere APU unterhalb von vier Kernen. Das spannendste Produkt der Konkurrenz seit Jahren hat einen Kern und vier Helfer-Krümel, bei einer TDP die AMDs nicht-runtergetaktete Modelle um Faktor 4 unterbietet.
 
Die 16 Kern CCD aus dem Desktop lassen sich doch wie bisher im TR und Epyc nutzen. Und dort wäre durchaus eine weitere Kernsteigerung denkbar.

Das spannendste Produkt der Konkurrenz seit Jahren hat einen Kern und vier Helfer-Krümel, bei einer TDP die AMDs nicht-runtergetaktete Modelle um Faktor 4 unterbietet.

Was aber im Desktop völlig egal ist, wenn die Intel-CPUs sonst 250W rein ballern.
 
@gaussmath
Hast du eigentlich eine vergleichbare Grafik für den Aufbau für die 8-Kerner von Coffee Lake Refresh (CFL-R)?
Würde mich mal interessieren, wo da Gemeinsamkeiten und Unterschiede in der Kernverknüpfung bestehen.

Stell' dir einfach den Ringbus statt der Direktverbindungen über dem Slice-Netzwerk vor.

Woraus ergibt sich die bei 26 + 4 ns die 26 ns?

Die Werte sind aus dem SiSoftware Sandra Latenztest. Die 26ns ist die Dauer für das Transferieren einer Cache-Line über die Kette L1->L2->[L3->L3]->L2->L1 von Kern i nach Kern j, wobei [L3->L3] die "Direktverbindung" im Cache-Slice-Netwerk eines CCX Moduls ist. Der Begriff Direktverbindung bezieht sich immer nur auf die Topologie des Cache-Slice-Netwerkes. Es gibt keine wirkliche Direktverbindung zwischen zwei Kernen. Intercore-Kommunikation bedeutet immer (worst case) einmal die Cache-Hierarchie runter und einmal wieder rauf.
 
Zurück